LongFlow -- KV-Cache-Kompression fuer Reasoning-Modelle mit 11.8x Throughput
Yi Su, Zhenxu Tian, Dan Qiao (ByteDance), Yuechi Zhou, Juntao Li und Min Zhang von der Soochow University haben im Maerz 2026 LongFlow vorgestellt -- eine KV-Cache-Kompressionsmethode, die gezielt auf die langen Ausgabesequenzen von Reasoning-Modellen wie DeepSeek-R1 und QwQ zugeschnitten ist. Das zentrale Problem: Reasoning-Modelle produzieren ausfuehrliche Denkspuren mit tausenden Tokens, und der dabei wachsende KV-Cache frisst Speicher und Bandbreite. LongFlow adressiert dieses Problem mit einem fusionierten Kernel, der Attention-Berechnung, Importance Estimation und Token Eviction in einem einzigen Operator vereint.
Kernaussagen
-
80% Cache-Kompression bei vernachlaessigbarem Qualitaetsverlust. LongFlow komprimiert den KV-Cache um 80% und erreicht dabei auf DeepSeek-R1-Distill-Llama-8B nur 0.08% durchschnittlichen Leistungsabfall. Auf Qwen3-8B liegt der Verlust bei etwa 1.3%. Das macht die Kompression fuer produktive Deployments tragbar.
-
11.8x Throughput-Steigerung. Durch die Reduktion des KV-Cache sinkt die Attention-Latenz von 47 ms auf 8 ms. Insgesamt erreicht LongFlow bis zu 11.8-fachen Throughput gegenueber unkomprimierter Inferenz. Fuer Teams, die Reasoning-Modelle in Produktion betreiben, ist das ein massiver Kostenhebel.
-
Fusionierter Triton-Kernel. Ein Kernproblem bestehender Kompressionsansaetze: Sie sind nicht mit FlashAttention und Paged-Attention kompatibel. Ihre Logik unterbricht die Operator-Fusion und erzwingt teure Datenbewegungen zwischen SRAM und HBM. LongFlow loest das durch einen Custom-Triton-Kernel, der FlashAttention, Importance Estimation und Token Eviction in einem einzigen fusionierten Operator zusammenfasst.
-
Importance Estimation ohne Overhead. Die Metrik zur Bewertung der Token-Wichtigkeit wird direkt aus einem Zwischenergebnis der Standard-Attention-Berechnung abgeleitet. Sie benoetigt keinen zusaetzlichen Speicher und verursacht vernachlaessigbaren Rechenaufwand.
Methodik
Die Autoren evaluieren LongFlow auf DeepSeek-R1-Distill-Llama-8B und der Qwen3-Serie (0.6B, 1.7B, 4B, 8B) ueber ein breites Spektrum anspruchsvoller Reasoning-Benchmarks: MATH-500, AMC-23, AIME-24 und AIME-25 fuer mathematisches Reasoning auf Wettbewerbsniveau, GPQA, Minerva und OlympiadBench fuer wissenschaftliches Reasoning, sowie GSM8K fuer grundlegendes mathematisches Schlussfolgern. Der fusionierte Triton-Kernel wird gegen Standard-FlashAttention und bestehende Kompressionsverfahren verglichen.
Relevanz fuer die Praxis
Reasoning-Modelle sind die derzeit leistungsfaehigste Modellklasse fuer anspruchsvolle Aufgaben, aber ihre langen Denkspuren machen sie teuer im Betrieb. LongFlow ist direkt praxisrelevant, weil es genau dieses Deploymentproblem angeht: 80% weniger KV-Cache bedeuten deutlich niedrigere GPU-Speicheranforderungen und hoehere Batch-Groessen. Die Kompatibilitaet mit FlashAttention ist dabei der entscheidende Punkt -- viele theoretisch gute Kompressionsverfahren scheitern in der Praxis daran, dass sie nicht in bestehende Inference-Stacks integrierbar sind. LongFlow zeigt, dass KV-Cache-Kompression und Operator-Fusion zusammen funktionieren koennen, ohne die Qualitaet der Reasoning-Ergebnisse zu opfern.