2. April 2026

SemantiCache -- Semantisch kohaerente KV-Cache-Kompression mit 2.6x Speedup

Shunlong Wu, Hai Lin, Shaoshen Chen und Kollegen haben im Maerz 2026 SemantiCache vorgestellt -- ein KV-Cache-Kompressionsverfahren, das die semantische Struktur von Text respektiert statt sie zu ignorieren. Der zentrale Gedanke: Bestehende Kompressionsansaetze arbeiten auf Token-Ebene oder in arbitraeren Chunks und zerstoeren dabei linguistisch kohaerente Einheiten. SemantiCache partitioniert den Cache stattdessen entlang semantischer Grenzen und fasst Tokens innerhalb dieser Segmente per Clustering zusammen.

Kernaussagen

Methodik

Die Evaluation erfolgt auf LongBench-Tasks mit verschiedenen KV-Cache-Budgets und Modellen, darunter Mistral-7B-Instruct-v0.2 mit Kontextlaengen bis 32K Tokens. SemantiCache wird gegen sowohl Eviction-basierte als auch Merging-basierte Baselines verglichen und uebertrifft alle konsistent ueber verschiedene Kompressionsraten hinweg. Zusaetzlich werden Needle-in-a-Haystack-Tests bei 8K und 32K Kontextlaenge durchgefuehrt, um die Faehigkeit zur praezisen Informationsextraktion unter Kompression zu pruefen.

Relevanz fuer die Praxis

SemantiCache adressiert ein konkretes Problem beim Deployment von Long-Context-Modellen: Der KV-Cache waechst linear mit der Kontextlaenge und wird schnell zum Flaschenhals fuer Speicher und Latenz. Waehrend viele Kompressionsverfahren bei hohen Raten die Qualitaet einbrechen lassen, zeigt SemantiCache, dass semantisch informierte Kompression robuster ist. Der Ansatz ist besonders relevant fuer Anwendungsfaelle, bei denen zusammenhaengende Textpassagen wichtig sind -- etwa Dokumentenanalyse, Zusammenfassungen langer Texte oder Multi-Turn-Konversationen. Die Tatsache, dass das Verfahren training-free ist und keine Modellanpassung erfordert, macht es direkt einsetzbar auf bestehenden Modellen.

Quellen

Nach oben