25. März 2026

Google TurboQuant: LLM-Speicherverbrauch um Faktor 6 reduziert

Google Research hat TurboQuant vorgestellt, einen Kompressionsalgorithmus für den Key-Value-Cache von Large Language Models. Die Ergebnisse: 6-fache Reduktion des Speicherbedarfs, 8-fache Beschleunigung der Attention-Berechnung -- ohne messbaren Qualitätsverlust. TurboQuant wird auf der ICLR 2026 präsentiert.

Das Problem: KV-Cache als Flaschenhals

LLMs arbeiten intern mit hochdimensionalen Vektoren, die semantische Bedeutung von Text kodieren. Während der Inferenz legt das Modell einen Key-Value-Cache an -- eine Art schnelles Notizbuch, das bereits berechnete Repräsentationen zwischenspeichert, um sie nicht erneut berechnen zu müssen. Bei langen Kontextfenstern oder vielen parallelen Anfragen wächst dieser Cache erheblich und wird zum Flaschenhals: Er belegt Arbeitsspeicher, der sonst für größere Modelle oder höheren Durchsatz genutzt werden könnte.

Die klassische Antwort darauf ist Quantisierung -- Gewichte oder Aktivierungen in niedrigerer Präzision speichern. Das Problem: Herkömmliche Quantisierungsmethoden erfordern für jedes kleine Datenblock eigene Quantisierungskonstanten in voller Präzision. Dieser Overhead frisst 1--2 Bits pro Zahl und hebt einen Teil der Einsparung wieder auf.

Wie TurboQuant funktioniert

TurboQuant löst das Overhead-Problem durch zwei ineinandergreifende Verfahren:

PolarQuant -- Kompression durch Koordinatenwechsel

Statt Vektoren in kartesischen Koordinaten (x, y, z) zu speichern, konvertiert PolarQuant sie in Polarkoordinaten: ein Radius (Stärke des Signals) und eine Richtung (Bedeutung). Das ist konzeptuell wie die Umstellung von "3 Blocks nach Osten, 4 Blocks nach Norden" auf "5 Blocks in 37-Grad-Richtung" -- dieselbe Information, kompakter kodiert. Der Radius kann in wenigen Bits gespeichert werden; die Richtung trägt den semantischen Kern.

Vor der Quantisierung rotiert TurboQuant die Datenvektoren zufällig. Diese Vorverarbeitung vereinfacht die Geometrie der Daten, sodass ein Standard-Quantisierer auf jeden Teil des Vektors unabhängig angewendet werden kann -- ohne blockweise Skalierungskonstanten. PolarQuant übernimmt den Großteil der Kompression.

QJL -- Fehlerkorrektur mit 1 Bit

PolarQuant erzeugt kleine Restfehler. Um diese zu korrigieren, setzt TurboQuant die Quantized Johnson-Lindenstrauss (QJL)-Transformation ein. Der mathematische Hintergrund: Der Johnson-Lindenstrauss-Transform reduziert hochdimensionale Daten so, dass wesentliche Abstände und Beziehungen erhalten bleiben. QJL reduciert den Restfehler-Vektor auf ein einziges Vorzeichen-Bit (+1 oder -1) -- ohne Speicher-Overhead, weil keine Skalierungskonstante benötigt wird.

Diese 1-Bit-Fehlerkorrektur eliminiert systematischen Bias in der Attention-Berechnung und sorgt dafür, dass das Modell trotz aggressiver Kompression korrekt gewichtet, welche Teile des Kontexts relevant sind.

Gemessene Ergebnisse

Google testete TurboQuant auf einem Suite aus Long-Context-Benchmarks mit zwei Open-Source-Modellen: Gemma und Mistral.

Speicher: 6-fache Reduktion des KV-Cache-Speicherbedarfs
Geschwindigkeit: 8-fache Beschleunigung der Attention-Logit-Berechnung mit 4-Bit-Quantisierung gegenüber 32-Bit auf Nvidia H100
Qualität: Keine messbaren Einbußen in den Downstream-Benchmarks
Bitbreite: Kompression auf 3 Bits ohne zusätzliches Training der Modelle möglich

Der letzte Punkt ist relevant: TurboQuant lässt sich auf bestehende Modelle anwenden, ohne Finetuning oder Retraining.

Einordnung: Was das bedeutet

Quantisierung ist kein neues Thema. Techniken wie GPTQ, AWQ oder bitsandbytes-basierte 4-Bit-Quantisierung sind etabliert und breit im Einsatz. Der Unterschied bei TurboQuant liegt in zwei Aspekten:

Erstens wird nicht nur die Modellgewichte komprimiert, sondern der KV-Cache zur Laufzeit -- das betrifft direkt die Skalierbarkeit bei langen Kontexten und hoher Last. Zweitens behauptet Google, den Qualitätsverlust auf null zu bringen, nicht nur zu minimieren. Bisherige Methoden akzeptieren einen messbaren Trade-off zwischen Kompressionsrate und Ausgabequalität; TurboQuant soll diesen Kompromiss durch mathematisch fundierten Bias-Ausgleich vermeiden.

Praktische Konsequenzen, falls sich die Ergebnisse bestätigen:

On-Device-Inferenz: Auf Smartphones und Edge-Geräten könnten deutlich größere Modelle lauffähig werden, ohne Cloud-Anbindung.
Hosting-Kosten: Rechenzentren könnten pro GPU-Einheit mehr parallele Anfragen verarbeiten oder höhere Kontextlängen anbieten.
Modellgröße vs. Effizienz: Der freigekürzte Speicher wird in der Praxis wahrscheinlich nicht für Einsparungen, sondern für komplexere Modelle genutzt -- ein bekanntes Muster bei Effizienzgewinnen in der Branche.

TurboQuant wird auf der ICLR 2026 vorgestellt; PolarQuant auf der AISTATS 2026. Der Preprint ist verfügbar.

Quellen

Nach oben