MSA: Memory Sparse Attention -- 100 Millionen Tokens Kontextlaenge bei linearer Komplexitaet
Yu Chen und Kollegen von EverMind AI haben im Maerz 2026 Memory Sparse Attention (MSA) vorgestellt -- ein end-to-end trainierbares Memory-Framework, das die Kontextlaenge von LLMs auf 100 Millionen Tokens skaliert, ohne dass die Komplexitaet quadratisch waechst. Das Paper adressiert eines der fundamentalen Skalierungsprobleme heutiger Transformer-Architekturen.
Kernaussagen
-
Lineare Komplexitaet bei extremem Kontext. MSA skaliert die Kontextlaenge von 16K auf 100 Millionen Tokens bei linearer statt quadratischer Komplexitaet. Der Qualitaetsverlust bleibt dabei unter 9% im Vergleich zu vollem Attention.
-
Praxistaugliche Hardware-Anforderungen. Durch KV-Cache-Kompression und Memory Parallelism laeuft Inferenz mit 100 Millionen Tokens auf lediglich zwei A800 GPUs. Das macht extreme Kontextlaengen erstmals auf ueberschaubarer Hardware machbar.
-
Memory Interleaving fuer Multi-Hop-Reasoning. Ein zentraler Mechanismus ist das sogenannte Memory Interleaving: Statt den gesamten Kontext linear durchzuarbeiten, greift MSA gezielt auf verstreute Speichersegmente zu. Das ermoeglicht Multi-Hop-Reasoning ueber weit auseinanderliegende Informationen, ohne dass der gesamte Kontext im Arbeitsspeicher gehalten werden muss.
-
End-to-end trainierbar. Anders als viele Retrieval-basierte Ansaetze ist MSA kein nachtraeglicher Aufsatz, sondern wird als integraler Bestandteil des Modells trainiert. Die Memory-Schicht lernt waehrend des Pretrainings, welche Informationen komprimiert und welche verworfen werden koennen.
Methodik
Die Forscher erweitern die Standard-Attention-Architektur um eine trainierbare Memory-Schicht, die den KV-Cache komprimiert und als sparse Representation speichert. Waehrend der Inferenz entscheidet ein gelernter Routing-Mechanismus, welche Speichersegmente fuer die aktuelle Query relevant sind. Die Evaluation erfolgt auf Benchmarks fuer Long-Context-Verstaendnis, Needle-in-a-Haystack-Tests und Multi-Hop-Reasoning-Aufgaben bei steigender Kontextlaenge von 16K bis 100M Tokens. Der Code ist auf GitHub verfuegbar.
Relevanz fuer die Praxis
Fuer Anwendungsfaelle, die extremen Kontext benoetigen, ist MSA ein bedeutender Fortschritt. Code-Analyse ganzer Repositories, Long-Horizon-Agents, die ueber Stunden oder Tage agieren, und Digital Twins komplexer Systeme -- all diese Szenarien scheiterten bisher an der quadratischen Skalierung von Attention. Dass MSA auf zwei GPUs laeuft, macht den Ansatz auch fuer Teams mit begrenzter Infrastruktur interessant. Die unter 9% Qualitaetsverlust sind dabei der entscheidende Punkt: Extreme Kontextlaenge nuetzt nichts, wenn die Modellqualitaet einbricht. MSA zeigt, dass beides zusammen geht.