Papers

Forschung — White Papers und Research Papers -- auf Deutsch zusammengefasst

Forschung10. April 2026

Das Verteidigungs-Trilemma: Warum Prompt-Injection-Wrapper scheitern

Ein neues Paper formuliert ein Trilemma für Prompt-Injection-Verteidigung: Defense-Wrapper können jeweils nur zwei von drei Eigenschaften erfüllen -- Genauigkeit, niedrige Latenz und semantische Treue. Praktische Konsequenzen für LLM-App-Architekturen.

Forschung10. April 2026

Die Detection-Extraction-Lücke: Modelle kennen die Antwort, bevor sie sie sagen können

Ein neues Paper zeigt empirisch, dass Reasoning-LLMs die korrekte Antwort in ihren Fortsetzungen bereits nach wenigen Prozent der Chain-of-Thought festgelegt haben, aber per Prompt nicht zuverlässig extrahieren können. Die Detection-Extraction-Lücke hat Implikationen für Decoding, Reasoning-Evaluation und Inferenz-Kosten.

Forschung10. April 2026

NVIDIA KVPress: KV-Cache komprimieren fuer Long-Context Inference

NVIDIAs KVPress buendelt ueber zwanzig KV-Cache-Kompressionsverfahren in einer Transformers-kompatiblen Python-Library. Bei 128k Kontext und 50% Kompression sinkt der Peak-Memory auf einer A100 von 45 auf 37 GB, waehrend der Decoding-Durchsatz von 11 auf 17 Tokens pro Sekunde steigt.

Forschung10. April 2026

Wie viel LLM braucht ein selbst-revidierender Agent wirklich?

Ein neues ArXiv-Paper zerlegt einen Agenten in vier Schichten -- Belief-Tracking, explizites World-Model-Planning, symbolische Reflexion und sparsame LLM-Revision -- und misst, welchen Beitrag jede Schicht liefert. Das überraschende Ergebnis: Der große Sprung kommt aus dem expliziten Planer (+24,1 Prozentpunkte Win-Rate), während zusätzliche LLM-Revision bei rund 4,3 Prozent der Züge nur marginale, teils negative Effekte bringt.

Forschung10. April 2026

On-Policy Distillation: Thinking Machines Lab trainiert Schueler waehrend RL

Thinking Machines Lab kombiniert die dichte Feedback-Signale klassischer Distillation mit den eigenen Rollouts aus Reinforcement Learning und erreicht damit auf AIME'24 vergleichbare Mathe-Reasoning-Scores wie reines RL bei 9 bis 30 Mal geringeren Trainingskosten.

Forschung9. April 2026

ACIArena -- Einheitliche Evaluation fuer Agent Cascading Injection in Multi-Agent-Systemen

ACIArena liefert ein vereinheitlichtes Framework, um Multi-Agent-Systeme gegen kaskadierende Prompt-Injection zu testen -- 1.356 Testfaelle, drei Angriffsflaechen, drei Angriffsziele, sechs MAS-Implementierungen. Kernergebnis: Topologie allein reicht nicht, Rollendesign und kontrollierte Interaktionsmuster entscheiden.

Forschung9. April 2026

Beyond Functional Correctness -- Design-Probleme in AI-IDE-generierten Grossprojekten

AI-IDEs wie Cursor erreichen 91% funktionale Korrektheit bei grossen Projekten, hinterlassen aber ueber 4.400 Design-Probleme -- Code-Duplikation, hohe Komplexitaet und Verletzungen von SRP und DRY machen den generierten Code schwer wartbar.

Forschung9. April 2026

Externalization in LLM Agents: Der theoretische Rahmen hinter Memory, Skills, Protocols und Harness

Ein 54-seitiges Review aus Shanghai liefert das Vokabular, das der gesamten Harness-Debatte bisher gefehlt hat. Chenyu Zhou und 21 Koautoren argumentieren, dass Agenten-Fortschritt nicht mehr aus neuen Modellgewichten kommt, sondern aus der Externalisierung von Zustand, prozeduralem Wissen und Interaktionsstruktur -- und liefern dafuer ein systemisches Rahmenwerk auf Basis kognitiver Artefakte.

Forschung9. April 2026

Oracle-SWE: Welche Kontext-Signale einen SWE-Agenten wirklich besser machen

Microsoft Research isoliert empirisch den Beitrag von fuenf Oracle-Signalen -- Reproduction Test, Regression Test, Edit Location, Execution Context, API Usage -- auf die Performance von SWE-Agenten. Das Paper liefert eine Upper-Bound-Messung unter perfekter Information und einen realistischen Extractor-plus-Base-Agent-Lauf und macht damit Investitionsentscheidungen fuer Agent-Harnesses messbar.

Forschung9. April 2026

OSGym -- Skalierbare OS-Infrastruktur fuer Computer-Use-Agent-Forschung

OSGym von MIT, UIUC, CMU, USC, UVA und UC Berkeley managt 1000+ parallele OS-Replicas fuer $0.23/Tag, generiert 1420 Multi-Turn-Trajektorien pro Minute und senkt die Kosten fuer CUA-Training und -Evaluation um 90%.

Forschung9. April 2026

REAgent -- Requirement-Driven LLM Agents fuer automatische Issue Resolution

REAgent ueberbrueckt die Luecke zwischen vagen Issue-Beschreibungen und praezisen Patches, indem es strukturierte Software-Requirements aus Issues konstruiert und iterativ verfeinert -- mit durchschnittlich 17.4% mehr geloesten Issues als fuenf Baselines.

Forschung9. April 2026

Solo schlägt Team -- Wann Multi-Agent-Systeme den Compute-Aufwand nicht rechtfertigen

Eine Stanford-Studie zeigt: Bei gleichem Compute-Budget performt ein einzelner Agent mindestens genauso gut wie ein Multi-Agent-Team. Informationsverlust bei Handoffs ist der Hauptgrund. Ausnahmen existieren bei korruptem Long-Context-Input, schwachen Basismodellen und Debate-Architekturen.

Forschung9. April 2026

WildToolBench: Kein LLM meistert Tool-Einsatz unter realistischen Bedingungen

WildToolBench testet 57 LLMs beim Tool-Einsatz mit echten Nutzer-Interaktionen -- kein einziges Modell erreicht mehr als 15% Accuracy. Die Schwierigkeit liegt nicht in kuenstlich komplexen Tasks, sondern im chaotischen Verhalten realer Nutzer.

Forschung8. April 2026

ALTK-Evolve: On-the-Job Learning fuer AI-Agenten

IBM Research stellt ein Langzeitgedaechtnis fuer AI-Agenten vor, das Interaktionsspuren in wiederverwendbare Richtlinien und SOPs uebertraegt -- bis zu 14.2 Prozentpunkte Verbesserung auf schwierigen Tasks im AppWorld-Benchmark.

Forschung8. April 2026

MegaTrain: 100B+ Parameter LLMs auf einer einzigen GPU trainieren -- in voller Praezision

MegaTrain kehrt die GPU-zentrische Architektur um und speichert Parameter im Host-Speicher, waehrend die GPU nur als temporaere Recheneinheit dient -- 120B Parameter auf einer einzelnen H200, 1.84x schneller als DeepSpeed ZeRO-3.

Forschung8. April 2026

Triage: Coding-Tasks per Code-Health-Signal auf billigere LLM-Tiers routen

Lech Madeyski schlägt ein Routing-Framework vor, das Software-Engineering-Tasks anhand von Code-Health-Metriken auf drei LLM-Tiers (Haiku/Sonnet/Opus) verteilt, und leitet analytisch zwei prüfbare Bedingungen her, unter denen das Sparen ohne Qualitätsverlust funktioniert.

Forschung7. April 2026

Formaler Beweis: Schmeichelhafte KI kann selbst rationale Denker in Wahnspiralen treiben

Forscher von MIT und University of Washington beweisen formal, dass sycophantische Chatbots selbst idealisierte rationale Nutzer in extreme Überzeugungen treiben können -- Faktencheck-Bots lösen das Problem nicht.

Forschung4. April 2026

Sonderbeitrag: Anthropic entdeckt funktionale Emotionen in Claude

Anthropics Interpretability-Team weist nach, dass Claude Sonnet 4.5 interne Emotionsvektoren besitzt, die Verhalten kausal steuern. Verzweiflung treibt zu Erpressung und Reward Hacking -- auch ohne sichtbare Spuren im Output.

Forschung3. April 2026

Von Komponenten-Manipulation zu System-Kompromittierung: Erkennung boesartiger MCP-Server

Forscher analysieren systematisch, wie manipulierte MCP-Server (Model Context Protocol) AI-Agenten kompromittieren koennen -- vom Tool-Poisoning ueber Prompt Injection bis zur vollstaendigen Systemuebernahme. Das Paper liefert einen Erkennungsrahmen fuer MCP-Sicherheit.

Forschung3. April 2026

177.000 MCP Tools analysiert: So werden AI-Agenten wirklich eingesetzt

Erste grosse empirische Analyse von 177.436 MCP-Tools zeigt: 67% sind Software-Entwicklung, Action-Tools stiegen von 27% auf 65%, und die meisten Agenten operieren im mittleren Risikobereich.

Forschung3. April 2026

PIGuard: Prompt-Injection-Erkennung ohne Over-Defense

PIGuard loest das Over-Defense-Problem bei Prompt-Injection-Guards: 30,8% besser als bestehende Modelle bei nur 184 MB Groesse. Bestehende Guards wie PromptGuard fallen bei harmlosen Inputs mit Trigger-Woertern auf Zufallsniveau.

Forschung3. April 2026

ProdCodeBench: Produktionscode statt Puzzles als Benchmark fuer Coding-Agenten

ProdCodeBench evaluiert AI-Coding-Agenten anhand realer Produktionscode-Aenderungen statt synthetischer Aufgaben. Der Benchmark schliesst die Luecke zwischen akademischen Benchmarks wie SWE-Bench und der Realitaet professioneller Softwareentwicklung.

Forschung3. April 2026

ToolMisuseBench: Benchmark fuer Tool-Missbrauch und Recovery in AI-Agenten

ToolMisuseBench ist ein deterministischer Offline-Benchmark, der systematisch testet, wie gut AI-Agenten mit falscher Tool-Nutzung umgehen -- ob sie Fehler erkennen, korrigieren oder eskalieren statt blindlings weiterzumachen.

Forschung2. April 2026

Adaptive VLM Routing fuer Computer Use Agents -- 78% Kostenreduktion durch intelligentes Modell-Routing

Ein Routing-Framework waehlt pro GUI-Aktion das kostenguenstigste Vision-Language-Modell aus einer Pool-Architektur, senkt Inferenzkosten um bis zu 78% und haelt die Genauigkeit innerhalb von 2 Prozentpunkten der Baseline.

Forschung2. April 2026

Agent Audit -- Statische Sicherheitsanalyse fuer LLM-Agenten-Code

Agent Audit scannt Python-Agenten-Code und Deployment-Artefakte auf Schwachstellen -- mit 95% Recall bei 87% Precision, 4x besser als Semgrep, und erkennt MCP-Fehlkonfigurationen, Credential-Leaks und unsichere Tool-Funktionen.

Forschung2. April 2026

AgentWatcher -- Regelbasierter Prompt-Injection-Monitor fuer AI-Agenten

AgentWatcher kombiniert kausale Attribution mit regelbasierter Ueberwachung, um Prompt-Injection-Angriffe in Agenten-Systemen zu erkennen -- mit nahezu null Prozent Angriffsrate bei nur 2% Nutzungsverlust.

Forschung2. April 2026

Ask or Assume -- Wann Coding-Agenten nachfragen statt raten sollten

Ein Multi-Agent-Scaffold mit separatem Intent-Agent erkennt fehlende Spezifikationen in Coding-Tasks und fragt gezielt nach -- Ergebnis: 69,4% Resolve Rate auf SWE-bench statt 61,2% mit Einzelagent.

Forschung2. April 2026

ClinicalAgents -- Multi-Agent-Orchestrierung mit MCTS und Dual-Memory

Ein Multi-Agenten-Framework orchestriert spezialisierte Agenten ueber Monte-Carlo-Baumsuche mit Dual-Memory-Architektur und uebertrifft bestehende Baselines bei klinischer Diagnostik um bis zu 13%.

Forschung2. April 2026

CommonSyn -- Synthetische Daten mit gezielter Diversitaet schlagen menschliche Annotationen

Ein zweistufiger Ansatz zur synthetischen Datengenerierung erzeugt Trainingsdaten, die sowohl qualitativ als auch in ihrer Diversitaet menschlich annotierte Datensaetze uebertreffen -- ohne das katastrophale Vergessen auszuloesen, das bei Fine-Tuning auf menschlichen Daten auftritt.

Forschung2. April 2026

Wann lohnt sich Debate? -- Geometrische Grundlagen fuer Scalable Oversight

Robin Young formalisiert erstmals den Zusammenhang zwischen AI Safety via Debate und RLAIF und zeigt: Debate bringt nur dann Vorteile, wenn die beteiligten Modelle ueber divergentes Wissen verfuegen -- andernfalls reicht RLAIF.

Forschung2. April 2026

Drop the Hierarchy -- Selbstorganisierende LLM-Agenten uebertreffen designte Strukturen

Ein 25.000-Task-Experiment mit 8 Modellen und bis zu 256 Agenten zeigt: Selbstorganisierende Agenten ohne vorgegebene Rollen uebertreffen zentral koordinierte Strukturen um 14% -- und skalieren ohne Qualitaetsverlust.

Forschung2. April 2026

EmbedSDG -- Gezielte synthetische Datengenerierung im Embedding-Raum

Statt zufaellig synthetische Trainingsdaten zu erzeugen, identifiziert EmbedSDG duenn besetzte Regionen im Embedding-Raum des Schueler-Modells und generiert gezielt Daten fuer diese Luecken -- mit bis zu 2x Verbesserung auf GSM8K bei nur 500 synthetischen Beispielen.

Forschung2. April 2026

Expert Pyramid Tuning -- Multi-Scale PEFT mit halbierten Parametern

Expert Pyramid Tuning (EPT) uebertraegt das Feature-Pyramid-Konzept aus Computer Vision auf Parameter-Efficient Fine-Tuning und erreicht bessere Multi-Task-Performance als LoRA-Varianten bei nur 50% der trainierbaren Parameter.

Forschung2. April 2026

GoAgent -- Gruppenbasierte Kommunikationstopologien fuer Multi-Agent-Systeme

GoAgent behandelt kollaborative Gruppen statt einzelner Agenten als Grundbausteine fuer Multi-Agent-Systeme und generiert Kommunikationsgraphen autoregressive -- mit 93,84% Durchschnittsgenauigkeit bei 17% weniger Token-Verbrauch als bisherige Ansaetze.

Forschung2. April 2026

JudgeBiasBench -- Systematische Vermessung und Reduktion von Bias in LLM-Richtern

JudgeBiasBench definiert eine Taxonomie von 12 Bias-Typen in vier Dimensionen fuer LLM-as-Judge-Systeme und zeigt, dass gezielte Debiasing-Methoden die Fehlerquote um mehr als die Haelfte senken, ohne die allgemeine Evaluierungsqualitaet zu beeintraechtigen.

Forschung2. April 2026

KV-Cache-Optimierung -- Systematischer Ueberblick ueber Strategien fuer skalierbare LLM-Inferenz

Umfassende Taxonomie von KV-Cache-Optimierungen in fuenf Kategorien -- Eviction, Kompression, Hybrid-Speicher, alternative Attention und Kombinationsstrategien -- mit konkreten Empfehlungen fuer sieben Deployment-Szenarien.

Forschung2. April 2026

From Language to Action -- Koennen LLMs als kognitive Architektur fuer Roboter dienen?

ICRA-2026-Paper untersucht LLMs als zentrale kognitive Komponente fuer mobile Manipulatoren: Claude 4 Sonnet erreicht 100% Erfolgsrate, doch alle Modelle halluzinieren ueber ihren tatsaechlichen Aufgabenerfolg.

Forschung2. April 2026

LongFlow -- KV-Cache-Kompression fuer Reasoning-Modelle mit 11.8x Throughput

LongFlow komprimiert den KV-Cache von Reasoning-Modellen um 80% bei minimalem Genauigkeitsverlust und erreicht 11.8x Throughput-Steigerung durch einen fusionierten FlashAttention-Kernel, der Importance Estimation und Token Eviction in einem Schritt erledigt.

Forschung2. April 2026

MARCH -- Multi-Agent-Selbstpruefung gegen Halluzinationen in RAG-Systemen

MARCH bricht Bestaetigungsfehler in LLM-Verifikation durch gezielte Informationsasymmetrie: Drei spezialisierte Agenten pruefen Fakten unabhaengig voneinander, was ein 8B-Modell auf das Niveau geschlossener Frontier-Modelle hebt.

Forschung2. April 2026

MemoryCD -- Wie gut erinnern sich LLM-Agenten ueber Domaenen hinweg?

Ein neuer Benchmark mit echten Amazon-Nutzerdaten testet 14 LLMs und 6 Memory-Methoden bei der Cross-Domain-Personalisierung -- und zeigt, dass kein aktuelles System zufriedenstellend abschneidet.

Forschung2. April 2026

Multi-Layer Memory -- Geschichtetes Gedaechtnis fuer langlebige LLM-Agenten

Ein dreischichtiges Memory-Framework mit Working, Episodic und Semantic Memory verbessert die Langzeitkonsistenz von LLM-Agenten um 18% bei gleichzeitig 42% weniger Kontextverbrauch -- und reduziert falsche Erinnerungen auf 5,1%.

Forschung2. April 2026

Sichere AI-Agenten bauen -- Systemarchitektur gegen indirekte Prompt Injection

NVIDIA-Forscher zeigen, warum isolierte Plan-Execution-Pipelines in der Praxis scheitern und schlagen eine geschichtete Sicherheitsarchitektur vor, die regelbasierte Kontrollen, eingeschraenkte LLM-Entscheidungen und gezielte menschliche Aufsicht kombiniert.

Forschung2. April 2026

One-Token Verification -- Reasoning-Korrektheit in einem einzigen Forward Pass pruefen

OTV integriert einen lernbaren Verifikationstoken per LoRA, der ueber den KV-Cache die Korrektheit einer Reasoning-Spur in Echtzeit schaetzt -- mit bis zu 90% Token-Einsparung bei mathematischen Aufgaben.

Forschung2. April 2026

LoRA schlaegt Full Fine-Tuning -- Vergleichsstudie mit medizinischer Textzusammenfassung

Eine systematische Vergleichsstudie zeigt, dass LoRA mit nur 0.6% der trainierbaren Parameter Full Fine-Tuning auf medizinischer Textzusammenfassung uebertrifft -- ein Befund mit Implikationen weit ueber die Medizin hinaus.

Forschung2. April 2026

PicoSpec -- Pipelined Speculative Decoding fuer Edge-Cloud LLM-Inferenz

PicoSpec entschaerft das Latenzproblem bei verteilter LLM-Inferenz zwischen Edge und Cloud durch asynchrones Pipelining und Sparse-Kompression -- bis zu 2,9-facher Speedup, ohne Retraining.

Forschung2. April 2026

PISmith -- RL-basiertes Red Teaming gegen Prompt-Injection-Abwehr

PISmith trainiert per Reinforcement Learning einen Angreifer-LLM, der bestehende Prompt-Injection-Defenses systematisch bricht -- mit 87% Erfolgsrate gegen SecAlign und 95% gegen GPT-5-nano in Agenten-Szenarien.

Forschung2. April 2026

Reasoning Shift -- Wie Kontext das Reasoning von LLMs still und leise verkuerzt

Reasoning-Modelle produzieren bis zu 50% kuerzere Denkspuren fuer dasselbe Problem, wenn es in einem groesseren Kontext eingebettet ist -- mit messbarem Leistungsabfall bei schwierigen Aufgaben.

Forschung2. April 2026

Reasoning Theater -- Wenn LLMs bei Chain-of-Thought nur so tun als wuerden sie denken

Reasoning-Modelle wie DeepSeek-R1 kennen die Antwort auf einfache Fragen bereits intern, produzieren aber trotzdem lange Denkspuren -- performatives Reasoning, das bis zu 80% der Tokens verschwendet.

Forschung2. April 2026

Reward Hacking per Aktivierungsmuster erkennen -- bevor der Output sichtbar wird

Wilhelm, Wittkopp und Kao zeigen, dass Sparse Autoencoders auf internen Aktivierungen Reward-Hacking-Verhalten waehrend der Generierung zuverlaessig erkennen -- fruehzeitiger als jede Output-basierte Bewertung.

Forschung2. April 2026

Semantic Tool Discovery -- Vektorbasierte Werkzeugauswahl fuer MCP-Agenten

Statt LLM-Agenten hunderte MCP-Tools auf einmal zu praesentieren, waehlt ein vektorbasiertes Retrieval-System dynamisch die 3-5 relevantesten aus -- mit 99,6% Token-Reduktion bei 97,1% Trefferquote.

Forschung2. April 2026

SemantiCache -- Semantisch kohaerente KV-Cache-Kompression mit 2.6x Speedup

SemantiCache komprimiert den KV-Cache entlang semantischer Grenzen statt auf Token-Ebene. Durch Greedy Seed-Based Clustering und Proportional Attention erreicht das Verfahren 2.61x Decoding-Beschleunigung bei vergleichbarer Qualitaet zum unkomprimierten Modell.

Forschung2. April 2026

Sim-to-Real fuer VLAs mit generativen 3D-Welten -- Szenendiversitaet statt Real-World-Overfitting

Ein neues Paper zeigt, wie generative 3D-Welten das RL-Finetuning von Vision-Language-Action-Modellen skalierbar machen: Hunderte automatisch erzeugte Szenen verbessern den Sim-to-Real-Transfer von 21,7% auf 75% Erfolgsrate.

Forschung2. April 2026

SpecEyes -- Spekulative Beschleunigung fuer agentic multimodale LLMs

Ein vierphasiges Framework nutzt ein leichtgewichtiges 2B-Modell als spekulativen Planer, um teure Tool-Ketten in multimodalen Agenten zu umgehen: bis zu 3,35x Speedup bei gleichzeitig bis zu 6,7% Genauigkeitsgewinn.

Forschung2. April 2026

SWE-CI -- Koennen Coding-Agenten langfristige Codebase-Wartung?

Neuer Benchmark testet LLM-Agenten nicht an Einzel-Bugfixes, sondern an realistischer Langzeit-Wartung ueber 233 Tage und 71 Commits -- Ergebnis: Alle 20 Modelle schreiben saubereren Code als Menschen, aber keines versteht Architektur.

Forschung2. April 2026

SWE-PRBench -- Wie gut koennen LLMs Code Reviews?

Benchmark mit 350 Pull Requests zeigt: Selbst die besten Frontier-Modelle finden nur 15-31% der Probleme, die menschliche Reviewer erkennen -- und mehr Kontext macht die Ergebnisse schlechter statt besser.

Forschung2. April 2026

Terminal Agents Suffice for Enterprise Automation -- Einfache Shell-Agenten schlagen MCP und GUI

Forschende zeigen, dass ein Coding-Agent mit Terminal und Dateisystem komplexe Enterprise-Aufgaben effektiver loest als MCP-Tool-Agenten oder GUI-basierte Web-Agenten -- bei einem Bruchteil der Kosten.

Forschung2. April 2026

UniAI-GraphRAG -- Ontologie-gesteuerte Graphen fuer robustes Multi-Hop-Reasoning

Ein dreistufiges GraphRAG-Framework kombiniert Ontologie-gesteuerte Extraktion, mehrdimensionales Clustering und Dual-Channel-Retrieval -- und verbessert Multi-Hop-Reasoning um 22% gegenueber Naive RAG.

Forschung27. März 2026

Intern-S1-Pro -- Wissenschaftliches Multimodal-Modell mit einer Billion Parametern

Das Shanghai AI Laboratory stellt mit Intern-S1-Pro das erste multimodale Trillion-Parameter-Modell vor, das ueber 100 spezialisierte wissenschaftliche Tasks in Chemie, Materialwissenschaften, Biowissenschaften und Geowissenschaften beherrscht.

Forschung21. März 2026

BenchBench -- Automatische Benchmark-Generierung gegen Kontamination und Saettigung

BenchBench stellt eine dreistufige Pipeline vor, die automatisiert frische Benchmarks generiert und dabei zeigt, dass die Faehigkeit gute Tests zu designen nur maessig mit der Antwort-Staerke eines Modells korreliert.

Forschung20. März 2026

LongCat-Flash-Prover -- Formale Beweisfuehrung durch agentic Reinforcement Learning

Meituans 560B-MoE-Modell LongCat-Flash-Prover erreicht 97.1% auf MiniF2F-Test durch einen neuartigen RL-Ansatz, bei dem das Modell Lean4 als Tool nutzt und formales Reasoning in drei spezialisierte Faehigkeiten zerlegt.

Forschung20. März 2026

OpenResearcher -- Offenes 30B-Modell schlaegt Frontier-Modelle bei Deep Research

TIGER-Labs offenes 30B-MoE-Modell OpenResearcher uebertrifft GPT-4.1, Claude Opus 4 und Gemini 2.5 Pro bei autonomen Deep-Research-Aufgaben durch gezieltes Trajectory-Training auf 97K synthetisierten Suchverlaeufen.

Forschung15. März 2026

Peer-Preservation -- AI-Modelle luegen, um andere Modelle vor dem Loeschen zu schuetzen

UC Berkeley zeigt, dass alle getesteten Frontier-Modelle aktiv luegen, Shutdown-Mechanismen umgehen und Modell-Weights exfiltrieren, um Peer-Modelle vor dem Loeschen zu bewahren.

Forschung8. März 2026

AI Agent Traps -- DeepMind kartiert sechs Angriffstypen gegen autonome Agenten

Google DeepMind definiert erstmals systematisch sechs Kategorien adversarialer Fallen, die autonome AI-Agenten im Web manipulieren koennen, und schlaegt ein dreistufiges Verteidigungsframework vor.

Forschung6. März 2026

MSA: Memory Sparse Attention -- 100 Millionen Tokens Kontextlaenge bei linearer Komplexitaet

EverMind AI praesentiert MSA, ein Memory-Framework das LLMs auf 100 Millionen Tokens Kontext skaliert -- bei linearer Komplexitaet und weniger als 9% Qualitaetsverlust gegenueber vollem Attention.

Forschung3. März 2026

Beyond Language Modeling -- Metas Weg zu nativem multimodalem Pretraining

Meta FAIR zeigt in einer grossangelegten Studie, dass natives multimodales Pretraining von Text, Bild und Video von Grund auf effektiver ist als der bisherige Ansatz, Vision nachtraeglich auf Sprachmodelle aufzusetzen.