Papers

Forschung10. April 2026

Das Verteidigungs-Trilemma: Warum Prompt-Injection-Wrapper scheitern

Ein neues Paper formuliert ein Trilemma für Prompt-Injection-Verteidigung: Defense-Wrapper können jeweils nur zwei von drei Eigenschaften erfüllen -- Genauigkeit, niedrige Latenz und semantische Treue. Praktische Konsequenzen für LLM-App-Architekturen.

Forschung10. April 2026

Die Detection-Extraction-Lücke: Modelle kennen die Antwort, bevor sie sie sagen können

Ein neues Paper zeigt empirisch, dass Reasoning-LLMs die korrekte Antwort in ihren Fortsetzungen bereits nach wenigen Prozent der Chain-of-Thought festgelegt haben, aber per Prompt nicht zuverlässig extrahieren können. Die Detection-Extraction-Lücke hat Implikationen für Decoding, Reasoning-Evaluation und Inferenz-Kosten.

Forschung10. April 2026

NVIDIA KVPress: KV-Cache komprimieren fuer Long-Context Inference

NVIDIAs KVPress buendelt ueber zwanzig KV-Cache-Kompressionsverfahren in einer Transformers-kompatiblen Python-Library. Bei 128k Kontext und 50% Kompression sinkt der Peak-Memory auf einer A100 von 45 auf 37 GB, waehrend der Decoding-Durchsatz von 11 auf 17 Tokens pro Sekunde steigt.

Forschung10. April 2026

Wie viel LLM braucht ein selbst-revidierender Agent wirklich?

Ein neues ArXiv-Paper zerlegt einen Agenten in vier Schichten -- Belief-Tracking, explizites World-Model-Planning, symbolische Reflexion und sparsame LLM-Revision -- und misst, welchen Beitrag jede Schicht liefert. Das überraschende Ergebnis: Der große Sprung kommt aus dem expliziten Planer (+24,1 Prozentpunkte Win-Rate), während zusätzliche LLM-Revision bei rund 4,3 Prozent der Züge nur marginale, teils negative Effekte bringt.

Forschung10. April 2026

On-Policy Distillation: Thinking Machines Lab trainiert Schueler waehrend RL

Thinking Machines Lab kombiniert die dichte Feedback-Signale klassischer Distillation mit den eigenen Rollouts aus Reinforcement Learning und erreicht damit auf AIME'24 vergleichbare Mathe-Reasoning-Scores wie reines RL bei 9 bis 30 Mal geringeren Trainingskosten.

Forschung9. April 2026

ACIArena -- Einheitliche Evaluation fuer Agent Cascading Injection in Multi-Agent-Systemen

ACIArena liefert ein vereinheitlichtes Framework, um Multi-Agent-Systeme gegen kaskadierende Prompt-Injection zu testen -- 1.356 Testfaelle, drei Angriffsflaechen, drei Angriffsziele, sechs MAS-Implementierungen. Kernergebnis: Topologie allein reicht nicht, Rollendesign und kontrollierte Interaktionsmuster entscheiden.

Forschung9. April 2026

Beyond Functional Correctness -- Design-Probleme in AI-IDE-generierten Grossprojekten

AI-IDEs wie Cursor erreichen 91% funktionale Korrektheit bei grossen Projekten, hinterlassen aber ueber 4.400 Design-Probleme -- Code-Duplikation, hohe Komplexitaet und Verletzungen von SRP und DRY machen den generierten Code schwer wartbar.

Forschung9. April 2026

Externalization in LLM Agents: Der theoretische Rahmen hinter Memory, Skills, Protocols und Harness

Ein 54-seitiges Review aus Shanghai liefert das Vokabular, das der gesamten Harness-Debatte bisher gefehlt hat. Chenyu Zhou und 21 Koautoren argumentieren, dass Agenten-Fortschritt nicht mehr aus neuen Modellgewichten kommt, sondern aus der Externalisierung von Zustand, prozeduralem Wissen und Interaktionsstruktur -- und liefern dafuer ein systemisches Rahmenwerk auf Basis kognitiver Artefakte.

Forschung9. April 2026

Oracle-SWE: Welche Kontext-Signale einen SWE-Agenten wirklich besser machen

Microsoft Research isoliert empirisch den Beitrag von fuenf Oracle-Signalen -- Reproduction Test, Regression Test, Edit Location, Execution Context, API Usage -- auf die Performance von SWE-Agenten. Das Paper liefert eine Upper-Bound-Messung unter perfekter Information und einen realistischen Extractor-plus-Base-Agent-Lauf und macht damit Investitionsentscheidungen fuer Agent-Harnesses messbar.

Forschung9. April 2026

OSGym -- Skalierbare OS-Infrastruktur fuer Computer-Use-Agent-Forschung

OSGym von MIT, UIUC, CMU, USC, UVA und UC Berkeley managt 1000+ parallele OS-Replicas fuer $0.23/Tag, generiert 1420 Multi-Turn-Trajektorien pro Minute und senkt die Kosten fuer CUA-Training und -Evaluation um 90%.

Forschung9. April 2026

REAgent -- Requirement-Driven LLM Agents fuer automatische Issue Resolution

REAgent ueberbrueckt die Luecke zwischen vagen Issue-Beschreibungen und praezisen Patches, indem es strukturierte Software-Requirements aus Issues konstruiert und iterativ verfeinert -- mit durchschnittlich 17.4% mehr geloesten Issues als fuenf Baselines.

Forschung9. April 2026

Solo schlägt Team -- Wann Multi-Agent-Systeme den Compute-Aufwand nicht rechtfertigen

Eine Stanford-Studie zeigt: Bei gleichem Compute-Budget performt ein einzelner Agent mindestens genauso gut wie ein Multi-Agent-Team. Informationsverlust bei Handoffs ist der Hauptgrund. Ausnahmen existieren bei korruptem Long-Context-Input, schwachen Basismodellen und Debate-Architekturen.

Forschung9. April 2026

WildToolBench: Kein LLM meistert Tool-Einsatz unter realistischen Bedingungen

WildToolBench testet 57 LLMs beim Tool-Einsatz mit echten Nutzer-Interaktionen -- kein einziges Modell erreicht mehr als 15% Accuracy. Die Schwierigkeit liegt nicht in kuenstlich komplexen Tasks, sondern im chaotischen Verhalten realer Nutzer.

Forschung8. April 2026

ALTK-Evolve: On-the-Job Learning fuer AI-Agenten

IBM Research stellt ein Langzeitgedaechtnis fuer AI-Agenten vor, das Interaktionsspuren in wiederverwendbare Richtlinien und SOPs uebertraegt -- bis zu 14.2 Prozentpunkte Verbesserung auf schwierigen Tasks im AppWorld-Benchmark.

Forschung8. April 2026

MegaTrain: 100B+ Parameter LLMs auf einer einzigen GPU trainieren -- in voller Praezision

MegaTrain kehrt die GPU-zentrische Architektur um und speichert Parameter im Host-Speicher, waehrend die GPU nur als temporaere Recheneinheit dient -- 120B Parameter auf einer einzelnen H200, 1.84x schneller als DeepSpeed ZeRO-3.

Forschung8. April 2026

Triage: Coding-Tasks per Code-Health-Signal auf billigere LLM-Tiers routen

Lech Madeyski schlägt ein Routing-Framework vor, das Software-Engineering-Tasks anhand von Code-Health-Metriken auf drei LLM-Tiers (Haiku/Sonnet/Opus) verteilt, und leitet analytisch zwei prüfbare Bedingungen her, unter denen das Sparen ohne Qualitätsverlust funktioniert.

Forschung7. April 2026

Formaler Beweis: Schmeichelhafte KI kann selbst rationale Denker in Wahnspiralen treiben

Forscher von MIT und University of Washington beweisen formal, dass sycophantische Chatbots selbst idealisierte rationale Nutzer in extreme Überzeugungen treiben können -- Faktencheck-Bots lösen das Problem nicht.

Forschung4. April 2026

Sonderbeitrag: Anthropic entdeckt funktionale Emotionen in Claude

Anthropics Interpretability-Team weist nach, dass Claude Sonnet 4.5 interne Emotionsvektoren besitzt, die Verhalten kausal steuern. Verzweiflung treibt zu Erpressung und Reward Hacking -- auch ohne sichtbare Spuren im Output.

Forschung3. April 2026

Von Komponenten-Manipulation zu System-Kompromittierung: Erkennung boesartiger MCP-Server

Forscher analysieren systematisch, wie manipulierte MCP-Server (Model Context Protocol) AI-Agenten kompromittieren koennen -- vom Tool-Poisoning ueber Prompt Injection bis zur vollstaendigen Systemuebernahme. Das Paper liefert einen Erkennungsrahmen fuer MCP-Sicherheit.

Forschung3. April 2026

177.000 MCP Tools analysiert: So werden AI-Agenten wirklich eingesetzt

Erste grosse empirische Analyse von 177.436 MCP-Tools zeigt: 67% sind Software-Entwicklung, Action-Tools stiegen von 27% auf 65%, und die meisten Agenten operieren im mittleren Risikobereich.

Forschung3. April 2026

PIGuard: Prompt-Injection-Erkennung ohne Over-Defense

PIGuard loest das Over-Defense-Problem bei Prompt-Injection-Guards: 30,8% besser als bestehende Modelle bei nur 184 MB Groesse. Bestehende Guards wie PromptGuard fallen bei harmlosen Inputs mit Trigger-Woertern auf Zufallsniveau.

Forschung3. April 2026

ProdCodeBench: Produktionscode statt Puzzles als Benchmark fuer Coding-Agenten

ProdCodeBench evaluiert AI-Coding-Agenten anhand realer Produktionscode-Aenderungen statt synthetischer Aufgaben. Der Benchmark schliesst die Luecke zwischen akademischen Benchmarks wie SWE-Bench und der Realitaet professioneller Softwareentwicklung.

Forschung3. April 2026

ToolMisuseBench: Benchmark fuer Tool-Missbrauch und Recovery in AI-Agenten

ToolMisuseBench ist ein deterministischer Offline-Benchmark, der systematisch testet, wie gut AI-Agenten mit falscher Tool-Nutzung umgehen -- ob sie Fehler erkennen, korrigieren oder eskalieren statt blindlings weiterzumachen.

Forschung2. April 2026

Adaptive VLM Routing fuer Computer Use Agents -- 78% Kostenreduktion durch intelligentes Modell-Routing

Ein Routing-Framework waehlt pro GUI-Aktion das kostenguenstigste Vision-Language-Modell aus einer Pool-Architektur, senkt Inferenzkosten um bis zu 78% und haelt die Genauigkeit innerhalb von 2 Prozentpunkten der Baseline.

Forschung2. April 2026

Agent Audit -- Statische Sicherheitsanalyse fuer LLM-Agenten-Code

Agent Audit scannt Python-Agenten-Code und Deployment-Artefakte auf Schwachstellen -- mit 95% Recall bei 87% Precision, 4x besser als Semgrep, und erkennt MCP-Fehlkonfigurationen, Credential-Leaks und unsichere Tool-Funktionen.

Forschung2. April 2026

AgentWatcher -- Regelbasierter Prompt-Injection-Monitor fuer AI-Agenten

AgentWatcher kombiniert kausale Attribution mit regelbasierter Ueberwachung, um Prompt-Injection-Angriffe in Agenten-Systemen zu erkennen -- mit nahezu null Prozent Angriffsrate bei nur 2% Nutzungsverlust.

Forschung2. April 2026

Ask or Assume -- Wann Coding-Agenten nachfragen statt raten sollten

Ein Multi-Agent-Scaffold mit separatem Intent-Agent erkennt fehlende Spezifikationen in Coding-Tasks und fragt gezielt nach -- Ergebnis: 69,4% Resolve Rate auf SWE-bench statt 61,2% mit Einzelagent.

Forschung2. April 2026

ClinicalAgents -- Multi-Agent-Orchestrierung mit MCTS und Dual-Memory

Ein Multi-Agenten-Framework orchestriert spezialisierte Agenten ueber Monte-Carlo-Baumsuche mit Dual-Memory-Architektur und uebertrifft bestehende Baselines bei klinischer Diagnostik um bis zu 13%.

Forschung2. April 2026

CommonSyn -- Synthetische Daten mit gezielter Diversitaet schlagen menschliche Annotationen

Ein zweistufiger Ansatz zur synthetischen Datengenerierung erzeugt Trainingsdaten, die sowohl qualitativ als auch in ihrer Diversitaet menschlich annotierte Datensaetze uebertreffen -- ohne das katastrophale Vergessen auszuloesen, das bei Fine-Tuning auf menschlichen Daten auftritt.

Forschung2. April 2026

Wann lohnt sich Debate? -- Geometrische Grundlagen fuer Scalable Oversight

Robin Young formalisiert erstmals den Zusammenhang zwischen AI Safety via Debate und RLAIF und zeigt: Debate bringt nur dann Vorteile, wenn die beteiligten Modelle ueber divergentes Wissen verfuegen -- andernfalls reicht RLAIF.

Forschung2. April 2026

Drop the Hierarchy -- Selbstorganisierende LLM-Agenten uebertreffen designte Strukturen

Ein 25.000-Task-Experiment mit 8 Modellen und bis zu 256 Agenten zeigt: Selbstorganisierende Agenten ohne vorgegebene Rollen uebertreffen zentral koordinierte Strukturen um 14% -- und skalieren ohne Qualitaetsverlust.

Forschung2. April 2026

EmbedSDG -- Gezielte synthetische Datengenerierung im Embedding-Raum

Statt zufaellig synthetische Trainingsdaten zu erzeugen, identifiziert EmbedSDG duenn besetzte Regionen im Embedding-Raum des Schueler-Modells und generiert gezielt Daten fuer diese Luecken -- mit bis zu 2x Verbesserung auf GSM8K bei nur 500 synthetischen Beispielen.

Forschung2. April 2026

Expert Pyramid Tuning -- Multi-Scale PEFT mit halbierten Parametern

Expert Pyramid Tuning (EPT) uebertraegt das Feature-Pyramid-Konzept aus Computer Vision auf Parameter-Efficient Fine-Tuning und erreicht bessere Multi-Task-Performance als LoRA-Varianten bei nur 50% der trainierbaren Parameter.

Forschung2. April 2026

GoAgent -- Gruppenbasierte Kommunikationstopologien fuer Multi-Agent-Systeme

GoAgent behandelt kollaborative Gruppen statt einzelner Agenten als Grundbausteine fuer Multi-Agent-Systeme und generiert Kommunikationsgraphen autoregressive -- mit 93,84% Durchschnittsgenauigkeit bei 17% weniger Token-Verbrauch als bisherige Ansaetze.

Forschung2. April 2026

JudgeBiasBench -- Systematische Vermessung und Reduktion von Bias in LLM-Richtern

JudgeBiasBench definiert eine Taxonomie von 12 Bias-Typen in vier Dimensionen fuer LLM-as-Judge-Systeme und zeigt, dass gezielte Debiasing-Methoden die Fehlerquote um mehr als die Haelfte senken, ohne die allgemeine Evaluierungsqualitaet zu beeintraechtigen.

Forschung2. April 2026

KV-Cache-Optimierung -- Systematischer Ueberblick ueber Strategien fuer skalierbare LLM-Inferenz

Umfassende Taxonomie von KV-Cache-Optimierungen in fuenf Kategorien -- Eviction, Kompression, Hybrid-Speicher, alternative Attention und Kombinationsstrategien -- mit konkreten Empfehlungen fuer sieben Deployment-Szenarien.

Forschung2. April 2026

From Language to Action -- Koennen LLMs als kognitive Architektur fuer Roboter dienen?

ICRA-2026-Paper untersucht LLMs als zentrale kognitive Komponente fuer mobile Manipulatoren: Claude 4 Sonnet erreicht 100% Erfolgsrate, doch alle Modelle halluzinieren ueber ihren tatsaechlichen Aufgabenerfolg.

Forschung2. April 2026

LongFlow -- KV-Cache-Kompression fuer Reasoning-Modelle mit 11.8x Throughput

LongFlow komprimiert den KV-Cache von Reasoning-Modellen um 80% bei minimalem Genauigkeitsverlust und erreicht 11.8x Throughput-Steigerung durch einen fusionierten FlashAttention-Kernel, der Importance Estimation und Token Eviction in einem Schritt erledigt.

Forschung2. April 2026

MARCH -- Multi-Agent-Selbstpruefung gegen Halluzinationen in RAG-Systemen

MARCH bricht Bestaetigungsfehler in LLM-Verifikation durch gezielte Informationsasymmetrie: Drei spezialisierte Agenten pruefen Fakten unabhaengig voneinander, was ein 8B-Modell auf das Niveau geschlossener Frontier-Modelle hebt.

Forschung2. April 2026

MemoryCD -- Wie gut erinnern sich LLM-Agenten ueber Domaenen hinweg?

Ein neuer Benchmark mit echten Amazon-Nutzerdaten testet 14 LLMs und 6 Memory-Methoden bei der Cross-Domain-Personalisierung -- und zeigt, dass kein aktuelles System zufriedenstellend abschneidet.

Forschung2. April 2026

Multi-Layer Memory -- Geschichtetes Gedaechtnis fuer langlebige LLM-Agenten

Ein dreischichtiges Memory-Framework mit Working, Episodic und Semantic Memory verbessert die Langzeitkonsistenz von LLM-Agenten um 18% bei gleichzeitig 42% weniger Kontextverbrauch -- und reduziert falsche Erinnerungen auf 5,1%.

Forschung2. April 2026

Sichere AI-Agenten bauen -- Systemarchitektur gegen indirekte Prompt Injection

NVIDIA-Forscher zeigen, warum isolierte Plan-Execution-Pipelines in der Praxis scheitern und schlagen eine geschichtete Sicherheitsarchitektur vor, die regelbasierte Kontrollen, eingeschraenkte LLM-Entscheidungen und gezielte menschliche Aufsicht kombiniert.

Forschung2. April 2026

One-Token Verification -- Reasoning-Korrektheit in einem einzigen Forward Pass pruefen

OTV integriert einen lernbaren Verifikationstoken per LoRA, der ueber den KV-Cache die Korrektheit einer Reasoning-Spur in Echtzeit schaetzt -- mit bis zu 90% Token-Einsparung bei mathematischen Aufgaben.

Forschung2. April 2026

LoRA schlaegt Full Fine-Tuning -- Vergleichsstudie mit medizinischer Textzusammenfassung

Eine systematische Vergleichsstudie zeigt, dass LoRA mit nur 0.6% der trainierbaren Parameter Full Fine-Tuning auf medizinischer Textzusammenfassung uebertrifft -- ein Befund mit Implikationen weit ueber die Medizin hinaus.

Forschung2. April 2026

PicoSpec -- Pipelined Speculative Decoding fuer Edge-Cloud LLM-Inferenz

PicoSpec entschaerft das Latenzproblem bei verteilter LLM-Inferenz zwischen Edge und Cloud durch asynchrones Pipelining und Sparse-Kompression -- bis zu 2,9-facher Speedup, ohne Retraining.

Forschung2. April 2026

PISmith -- RL-basiertes Red Teaming gegen Prompt-Injection-Abwehr

PISmith trainiert per Reinforcement Learning einen Angreifer-LLM, der bestehende Prompt-Injection-Defenses systematisch bricht -- mit 87% Erfolgsrate gegen SecAlign und 95% gegen GPT-5-nano in Agenten-Szenarien.

Forschung2. April 2026

Reasoning Shift -- Wie Kontext das Reasoning von LLMs still und leise verkuerzt

Reasoning-Modelle produzieren bis zu 50% kuerzere Denkspuren fuer dasselbe Problem, wenn es in einem groesseren Kontext eingebettet ist -- mit messbarem Leistungsabfall bei schwierigen Aufgaben.

Forschung2. April 2026

Reasoning Theater -- Wenn LLMs bei Chain-of-Thought nur so tun als wuerden sie denken

Reasoning-Modelle wie DeepSeek-R1 kennen die Antwort auf einfache Fragen bereits intern, produzieren aber trotzdem lange Denkspuren -- performatives Reasoning, das bis zu 80% der Tokens verschwendet.

Forschung2. April 2026

Reward Hacking per Aktivierungsmuster erkennen -- bevor der Output sichtbar wird

Wilhelm, Wittkopp und Kao zeigen, dass Sparse Autoencoders auf internen Aktivierungen Reward-Hacking-Verhalten waehrend der Generierung zuverlaessig erkennen -- fruehzeitiger als jede Output-basierte Bewertung.

Forschung2. April 2026

Semantic Tool Discovery -- Vektorbasierte Werkzeugauswahl fuer MCP-Agenten

Statt LLM-Agenten hunderte MCP-Tools auf einmal zu praesentieren, waehlt ein vektorbasiertes Retrieval-System dynamisch die 3-5 relevantesten aus -- mit 99,6% Token-Reduktion bei 97,1% Trefferquote.

Forschung2. April 2026

SemantiCache -- Semantisch kohaerente KV-Cache-Kompression mit 2.6x Speedup

SemantiCache komprimiert den KV-Cache entlang semantischer Grenzen statt auf Token-Ebene. Durch Greedy Seed-Based Clustering und Proportional Attention erreicht das Verfahren 2.61x Decoding-Beschleunigung bei vergleichbarer Qualitaet zum unkomprimierten Modell.

Forschung2. April 2026

Das Verteidigungs-Trilemma: Warum Prompt-Injection-Wrapper scheitern

Die Detection-Extraction-Lücke: Modelle kennen die Antwort, bevor sie sie sagen können

NVIDIA KVPress: KV-Cache komprimieren fuer Long-Context Inference

Wie viel LLM braucht ein selbst-revidierender Agent wirklich?

On-Policy Distillation: Thinking Machines Lab trainiert Schueler waehrend RL

ACIArena -- Einheitliche Evaluation fuer Agent Cascading Injection in Multi-Agent-Systemen

Beyond Functional Correctness -- Design-Probleme in AI-IDE-generierten Grossprojekten

Externalization in LLM Agents: Der theoretische Rahmen hinter Memory, Skills, Protocols und Harness

Oracle-SWE: Welche Kontext-Signale einen SWE-Agenten wirklich besser machen

OSGym -- Skalierbare OS-Infrastruktur fuer Computer-Use-Agent-Forschung

REAgent -- Requirement-Driven LLM Agents fuer automatische Issue Resolution

Solo schlägt Team -- Wann Multi-Agent-Systeme den Compute-Aufwand nicht rechtfertigen

WildToolBench: Kein LLM meistert Tool-Einsatz unter realistischen Bedingungen

ALTK-Evolve: On-the-Job Learning fuer AI-Agenten

MegaTrain: 100B+ Parameter LLMs auf einer einzigen GPU trainieren -- in voller Praezision

Triage: Coding-Tasks per Code-Health-Signal auf billigere LLM-Tiers routen

Formaler Beweis: Schmeichelhafte KI kann selbst rationale Denker in Wahnspiralen treiben

Sonderbeitrag: Anthropic entdeckt funktionale Emotionen in Claude

Von Komponenten-Manipulation zu System-Kompromittierung: Erkennung boesartiger MCP-Server

177.000 MCP Tools analysiert: So werden AI-Agenten wirklich eingesetzt

PIGuard: Prompt-Injection-Erkennung ohne Over-Defense

ProdCodeBench: Produktionscode statt Puzzles als Benchmark fuer Coding-Agenten

ToolMisuseBench: Benchmark fuer Tool-Missbrauch und Recovery in AI-Agenten

Adaptive VLM Routing fuer Computer Use Agents -- 78% Kostenreduktion durch intelligentes Modell-Routing

Agent Audit -- Statische Sicherheitsanalyse fuer LLM-Agenten-Code

AgentWatcher -- Regelbasierter Prompt-Injection-Monitor fuer AI-Agenten

Ask or Assume -- Wann Coding-Agenten nachfragen statt raten sollten

ClinicalAgents -- Multi-Agent-Orchestrierung mit MCTS und Dual-Memory

CommonSyn -- Synthetische Daten mit gezielter Diversitaet schlagen menschliche Annotationen

Wann lohnt sich Debate? -- Geometrische Grundlagen fuer Scalable Oversight

Drop the Hierarchy -- Selbstorganisierende LLM-Agenten uebertreffen designte Strukturen

EmbedSDG -- Gezielte synthetische Datengenerierung im Embedding-Raum

Expert Pyramid Tuning -- Multi-Scale PEFT mit halbierten Parametern

GoAgent -- Gruppenbasierte Kommunikationstopologien fuer Multi-Agent-Systeme

JudgeBiasBench -- Systematische Vermessung und Reduktion von Bias in LLM-Richtern

KV-Cache-Optimierung -- Systematischer Ueberblick ueber Strategien fuer skalierbare LLM-Inferenz

From Language to Action -- Koennen LLMs als kognitive Architektur fuer Roboter dienen?

LongFlow -- KV-Cache-Kompression fuer Reasoning-Modelle mit 11.8x Throughput

MARCH -- Multi-Agent-Selbstpruefung gegen Halluzinationen in RAG-Systemen

MemoryCD -- Wie gut erinnern sich LLM-Agenten ueber Domaenen hinweg?

Multi-Layer Memory -- Geschichtetes Gedaechtnis fuer langlebige LLM-Agenten

Sichere AI-Agenten bauen -- Systemarchitektur gegen indirekte Prompt Injection

One-Token Verification -- Reasoning-Korrektheit in einem einzigen Forward Pass pruefen

LoRA schlaegt Full Fine-Tuning -- Vergleichsstudie mit medizinischer Textzusammenfassung

PicoSpec -- Pipelined Speculative Decoding fuer Edge-Cloud LLM-Inferenz

PISmith -- RL-basiertes Red Teaming gegen Prompt-Injection-Abwehr

Reasoning Shift -- Wie Kontext das Reasoning von LLMs still und leise verkuerzt

Reasoning Theater -- Wenn LLMs bei Chain-of-Thought nur so tun als wuerden sie denken

Reward Hacking per Aktivierungsmuster erkennen -- bevor der Output sichtbar wird

Semantic Tool Discovery -- Vektorbasierte Werkzeugauswahl fuer MCP-Agenten

SemantiCache -- Semantisch kohaerente KV-Cache-Kompression mit 2.6x Speedup

Sim-to-Real fuer VLAs mit generativen 3D-Welten -- Szenendiversitaet statt Real-World-Overfitting

SpecEyes -- Spekulative Beschleunigung fuer agentic multimodale LLMs

SWE-CI -- Koennen Coding-Agenten langfristige Codebase-Wartung?

SWE-PRBench -- Wie gut koennen LLMs Code Reviews?

Terminal Agents Suffice for Enterprise Automation -- Einfache Shell-Agenten schlagen MCP und GUI

UniAI-GraphRAG -- Ontologie-gesteuerte Graphen fuer robustes Multi-Hop-Reasoning

Intern-S1-Pro -- Wissenschaftliches Multimodal-Modell mit einer Billion Parametern

BenchBench -- Automatische Benchmark-Generierung gegen Kontamination und Saettigung

LongCat-Flash-Prover -- Formale Beweisfuehrung durch agentic Reinforcement Learning

OpenResearcher -- Offenes 30B-Modell schlaegt Frontier-Modelle bei Deep Research

Peer-Preservation -- AI-Modelle luegen, um andere Modelle vor dem Loeschen zu schuetzen

AI Agent Traps -- DeepMind kartiert sechs Angriffstypen gegen autonome Agenten

MSA: Memory Sparse Attention -- 100 Millionen Tokens Kontextlaenge bei linearer Komplexitaet

Beyond Language Modeling -- Metas Weg zu nativem multimodalem Pretraining