2. April 2026

LongFlow -- KV-Cache-Kompression fuer Reasoning-Modelle mit 11.8x Throughput

Yi Su, Zhenxu Tian, Dan Qiao (ByteDance), Yuechi Zhou, Juntao Li und Min Zhang von der Soochow University haben im Maerz 2026 LongFlow vorgestellt -- eine KV-Cache-Kompressionsmethode, die gezielt auf die langen Ausgabesequenzen von Reasoning-Modellen wie DeepSeek-R1 und QwQ zugeschnitten ist. Das zentrale Problem: Reasoning-Modelle produzieren ausfuehrliche Denkspuren mit tausenden Tokens, und der dabei wachsende KV-Cache frisst Speicher und Bandbreite. LongFlow adressiert dieses Problem mit einem fusionierten Kernel, der Attention-Berechnung, Importance Estimation und Token Eviction in einem einzigen Operator vereint.

Kernaussagen

Methodik

Die Autoren evaluieren LongFlow auf DeepSeek-R1-Distill-Llama-8B und der Qwen3-Serie (0.6B, 1.7B, 4B, 8B) ueber ein breites Spektrum anspruchsvoller Reasoning-Benchmarks: MATH-500, AMC-23, AIME-24 und AIME-25 fuer mathematisches Reasoning auf Wettbewerbsniveau, GPQA, Minerva und OlympiadBench fuer wissenschaftliches Reasoning, sowie GSM8K fuer grundlegendes mathematisches Schlussfolgern. Der fusionierte Triton-Kernel wird gegen Standard-FlashAttention und bestehende Kompressionsverfahren verglichen.

Relevanz fuer die Praxis

Reasoning-Modelle sind die derzeit leistungsfaehigste Modellklasse fuer anspruchsvolle Aufgaben, aber ihre langen Denkspuren machen sie teuer im Betrieb. LongFlow ist direkt praxisrelevant, weil es genau dieses Deploymentproblem angeht: 80% weniger KV-Cache bedeuten deutlich niedrigere GPU-Speicheranforderungen und hoehere Batch-Groessen. Die Kompatibilitaet mit FlashAttention ist dabei der entscheidende Punkt -- viele theoretisch gute Kompressionsverfahren scheitern in der Praxis daran, dass sie nicht in bestehende Inference-Stacks integrierbar sind. LongFlow zeigt, dass KV-Cache-Kompression und Operator-Fusion zusammen funktionieren koennen, ohne die Qualitaet der Reasoning-Ergebnisse zu opfern.

Quellen

Nach oben