9. April 2026

Wer ein AI-Modell kleiner machen will, trainiert es bisher erst vollständig und komprimiert es danach -- durch Pruning, Destillation oder Quantisierung. MIT-Forscher drehen diese Reihenfolge um. Ihre Technik CompreSSM erkennt während des Trainings, welche internen Komponenten eines Modells überflüssig sind, und entfernt sie früh. Das restliche Training läuft auf dem bereits verkleinerten Modell -- schneller und mit weniger Ressourcen.

Die Kernidee: Kontrolltheorie statt Trial-and-Error

CompreSSM basiert auf einem Konzept aus der Kontrolltheorie: Hankel-Singulärwerten. Diese messen, wie stark jede interne Dimension eines State Space Models das Ein-/Ausgangsverhalten beeinflusst. Dimensionen mit niedrigen Hankel-Singulärwerten tragen wenig zum Ergebnis bei -- sie können entfernt werden, ohne das Modellverhalten wesentlich zu verändern.

Der entscheidende Befund: Die Rangordnung der Wichtigkeit stabilisiert sich bereits nach etwa 10% des Trainings. Ab diesem Punkt ändert sich kaum noch, welche Dimensionen relevant sind. CompreSSM nutzt dieses Fenster, um das Modell zu verkleinern. Die verbleibenden 90% des Trainings laufen auf dem komprimierten Modell -- mit entsprechend geringerem Rechen- und Speicheraufwand.

Als Sicherheitsmechanismus speichert CompreSSM Checkpoints vor der Kompression. Falls die Verkleinerung unerwartete Performance-Einbußen verursacht, lässt sich das unkomprimierte Modell wiederherstellen.

Ergebnisse

Die Autoren testen CompreSSM auf Bildklassifikation und Sprachmodellierung, jeweils mit State Space Models der Mamba-Architektur:

Einordnung

CompreSSM zielt auf State Space Models (SSMs) -- eine Architekturklasse, die bei Sequenzverarbeitung in Sprache, Audio und Robotik als Alternative zu Transformern an Bedeutung gewinnt. Mamba, das bekannteste SSM, skaliert linear mit der Sequenzlänge statt quadratisch. Für diese Modelle ist CompreSSM besonders relevant, weil die Hankel-Singulärwert-Analyse direkt auf die mathematische Struktur von SSMs anwendbar ist.

Praktisch bedeutet die Technik: Weniger verschwendete Rechenzeit. Statt ein überparametrisiertes Modell vollständig zu trainieren und dann zu beschneiden, wird der Großteil des Trainings bereits auf dem kompakten Modell durchgeführt. Das spart GPU-Stunden und Energie -- besonders relevant, wenn SSMs in Zukunft in größeren Skalen trainiert werden.

Ob der Ansatz auf Transformer übertragbar ist, bleibt offen. Die Hankel-Singulärwert-Analyse nutzt Eigenschaften linearer dynamischer Systeme, die Transformer nicht direkt haben. Für die wachsende SSM-Community ist CompreSSM aber ein konkretes Werkzeug, das Training effizienter macht, ohne Accuracy zu opfern.

Das Paper "The Curious Case of In-Training Compression of State Space Models" wurde bei der ICLR 2026 akzeptiert. Hauptautoren sind Makram Chahine und Daniela Rus vom MIT CSAIL, mit Beteiligung von Forschern des Max-Planck-Instituts, der ETH Zürich und Liquid AI.

Quellen

Nach oben