6. März 2026

MSA: Memory Sparse Attention -- 100 Millionen Tokens Kontextlaenge bei linearer Komplexitaet

Yu Chen und Kollegen von EverMind AI haben im Maerz 2026 Memory Sparse Attention (MSA) vorgestellt -- ein end-to-end trainierbares Memory-Framework, das die Kontextlaenge von LLMs auf 100 Millionen Tokens skaliert, ohne dass die Komplexitaet quadratisch waechst. Das Paper adressiert eines der fundamentalen Skalierungsprobleme heutiger Transformer-Architekturen.

Kernaussagen

Methodik

Die Forscher erweitern die Standard-Attention-Architektur um eine trainierbare Memory-Schicht, die den KV-Cache komprimiert und als sparse Representation speichert. Waehrend der Inferenz entscheidet ein gelernter Routing-Mechanismus, welche Speichersegmente fuer die aktuelle Query relevant sind. Die Evaluation erfolgt auf Benchmarks fuer Long-Context-Verstaendnis, Needle-in-a-Haystack-Tests und Multi-Hop-Reasoning-Aufgaben bei steigender Kontextlaenge von 16K bis 100M Tokens. Der Code ist auf GitHub verfuegbar.

Relevanz fuer die Praxis

Fuer Anwendungsfaelle, die extremen Kontext benoetigen, ist MSA ein bedeutender Fortschritt. Code-Analyse ganzer Repositories, Long-Horizon-Agents, die ueber Stunden oder Tage agieren, und Digital Twins komplexer Systeme -- all diese Szenarien scheiterten bisher an der quadratischen Skalierung von Attention. Dass MSA auf zwei GPUs laeuft, macht den Ansatz auch fuer Teams mit begrenzter Infrastruktur interessant. Die unter 9% Qualitaetsverlust sind dabei der entscheidende Punkt: Extreme Kontextlaenge nuetzt nichts, wenn die Modellqualitaet einbricht. MSA zeigt, dass beides zusammen geht.

Quellen

Nach oben