SemantiCache -- Semantisch kohaerente KV-Cache-Kompression mit 2.6x Speedup
Shunlong Wu, Hai Lin, Shaoshen Chen und Kollegen haben im Maerz 2026 SemantiCache vorgestellt -- ein KV-Cache-Kompressionsverfahren, das die semantische Struktur von Text respektiert statt sie zu ignorieren. Der zentrale Gedanke: Bestehende Kompressionsansaetze arbeiten auf Token-Ebene oder in arbitraeren Chunks und zerstoeren dabei linguistisch kohaerente Einheiten. SemantiCache partitioniert den Cache stattdessen entlang semantischer Grenzen und fasst Tokens innerhalb dieser Segmente per Clustering zusammen.
Kernaussagen
-
Semantische Integritaet statt Token-Level-Eviction. Bisherige KV-Cache-Kompressionsverfahren operieren auf einzelnen Tokens oder nicht-semantischen Bloecken. Das fuehrt zu semantischer Fragmentierung: Zusammengehoerende Informationseinheiten werden zerrissen, was zu irreversiblem Informationsverlust fuehrt. SemantiCache vermeidet das, indem es den Cache zuerst in semantisch kohaerente Chunks aufteilt, die an natuerlichen Sprachgrenzen orientiert sind.
-
Greedy Seed-Based Clustering (GSC). Innerhalb jedes semantischen Chunks gruppiert GSC Tokens in einem einzigen sequentiellen Durchlauf: Ein nicht zugeordneter Token wird zum Seed eines neuen Clusters, absorbiert alle folgenden nicht zugeordneten Tokens, deren Key-Vektoren eine Aehnlichkeit ueber einem definierten Schwellenwert aufweisen. Der Prozess wiederholt sich bis alle KV-States einem Cluster zugeordnet sind. Die Cluster werden anschliessend zu semantischen Kernen zusammengefuehrt.
-
Proportional Attention. Durch die Kompression gehen Attention-Beitraege verloren, weil weniger Keys zur Verfuegung stehen. Proportional Attention gleicht das aus, indem es die reduzierten Attention-Gewichte der zusammengefuehrten Tokens neu balanciert. Das verhindert den typischen Qualitaetsabfall bei hohen Kompressionsraten.
-
2.61x Decoding-Beschleunigung. SemantiCache beschleunigt die Decoding-Phase der Inferenz um bis zu 2.61x und reduziert den Speicherverbrauch erheblich, waehrend die Leistung vergleichbar mit dem unkomprimierten Modell bleibt.
Methodik
Die Evaluation erfolgt auf LongBench-Tasks mit verschiedenen KV-Cache-Budgets und Modellen, darunter Mistral-7B-Instruct-v0.2 mit Kontextlaengen bis 32K Tokens. SemantiCache wird gegen sowohl Eviction-basierte als auch Merging-basierte Baselines verglichen und uebertrifft alle konsistent ueber verschiedene Kompressionsraten hinweg. Zusaetzlich werden Needle-in-a-Haystack-Tests bei 8K und 32K Kontextlaenge durchgefuehrt, um die Faehigkeit zur praezisen Informationsextraktion unter Kompression zu pruefen.
Relevanz fuer die Praxis
SemantiCache adressiert ein konkretes Problem beim Deployment von Long-Context-Modellen: Der KV-Cache waechst linear mit der Kontextlaenge und wird schnell zum Flaschenhals fuer Speicher und Latenz. Waehrend viele Kompressionsverfahren bei hohen Raten die Qualitaet einbrechen lassen, zeigt SemantiCache, dass semantisch informierte Kompression robuster ist. Der Ansatz ist besonders relevant fuer Anwendungsfaelle, bei denen zusammenhaengende Textpassagen wichtig sind -- etwa Dokumentenanalyse, Zusammenfassungen langer Texte oder Multi-Turn-Konversationen. Die Tatsache, dass das Verfahren training-free ist und keine Modellanpassung erfordert, macht es direkt einsetzbar auf bestehenden Modellen.