Papers
Forschung — White Papers und Research Papers -- auf Deutsch zusammengefasst
Das Verteidigungs-Trilemma: Warum Prompt-Injection-Wrapper scheitern
Ein neues Paper formuliert ein Trilemma für Prompt-Injection-Verteidigung: Defense-Wrapper können jeweils nur zwei von drei Eigenschaften erfüllen -- Genauigkeit, niedrige Latenz und semantische Treue. Praktische Konsequenzen für LLM-App-Architekturen.
Die Detection-Extraction-Lücke: Modelle kennen die Antwort, bevor sie sie sagen können
Ein neues Paper zeigt empirisch, dass Reasoning-LLMs die korrekte Antwort in ihren Fortsetzungen bereits nach wenigen Prozent der Chain-of-Thought festgelegt haben, aber per Prompt nicht zuverlässig extrahieren können. Die Detection-Extraction-Lücke hat Implikationen für Decoding, Reasoning-Evaluation und Inferenz-Kosten.
NVIDIA KVPress: KV-Cache komprimieren fuer Long-Context Inference
NVIDIAs KVPress buendelt ueber zwanzig KV-Cache-Kompressionsverfahren in einer Transformers-kompatiblen Python-Library. Bei 128k Kontext und 50% Kompression sinkt der Peak-Memory auf einer A100 von 45 auf 37 GB, waehrend der Decoding-Durchsatz von 11 auf 17 Tokens pro Sekunde steigt.
Wie viel LLM braucht ein selbst-revidierender Agent wirklich?
Ein neues ArXiv-Paper zerlegt einen Agenten in vier Schichten -- Belief-Tracking, explizites World-Model-Planning, symbolische Reflexion und sparsame LLM-Revision -- und misst, welchen Beitrag jede Schicht liefert. Das überraschende Ergebnis: Der große Sprung kommt aus dem expliziten Planer (+24,1 Prozentpunkte Win-Rate), während zusätzliche LLM-Revision bei rund 4,3 Prozent der Züge nur marginale, teils negative Effekte bringt.
On-Policy Distillation: Thinking Machines Lab trainiert Schueler waehrend RL
Thinking Machines Lab kombiniert die dichte Feedback-Signale klassischer Distillation mit den eigenen Rollouts aus Reinforcement Learning und erreicht damit auf AIME'24 vergleichbare Mathe-Reasoning-Scores wie reines RL bei 9 bis 30 Mal geringeren Trainingskosten.
ACIArena -- Einheitliche Evaluation fuer Agent Cascading Injection in Multi-Agent-Systemen
ACIArena liefert ein vereinheitlichtes Framework, um Multi-Agent-Systeme gegen kaskadierende Prompt-Injection zu testen -- 1.356 Testfaelle, drei Angriffsflaechen, drei Angriffsziele, sechs MAS-Implementierungen. Kernergebnis: Topologie allein reicht nicht, Rollendesign und kontrollierte Interaktionsmuster entscheiden.
Beyond Functional Correctness -- Design-Probleme in AI-IDE-generierten Grossprojekten
AI-IDEs wie Cursor erreichen 91% funktionale Korrektheit bei grossen Projekten, hinterlassen aber ueber 4.400 Design-Probleme -- Code-Duplikation, hohe Komplexitaet und Verletzungen von SRP und DRY machen den generierten Code schwer wartbar.
Externalization in LLM Agents: Der theoretische Rahmen hinter Memory, Skills, Protocols und Harness
Ein 54-seitiges Review aus Shanghai liefert das Vokabular, das der gesamten Harness-Debatte bisher gefehlt hat. Chenyu Zhou und 21 Koautoren argumentieren, dass Agenten-Fortschritt nicht mehr aus neuen Modellgewichten kommt, sondern aus der Externalisierung von Zustand, prozeduralem Wissen und Interaktionsstruktur -- und liefern dafuer ein systemisches Rahmenwerk auf Basis kognitiver Artefakte.
Oracle-SWE: Welche Kontext-Signale einen SWE-Agenten wirklich besser machen
Microsoft Research isoliert empirisch den Beitrag von fuenf Oracle-Signalen -- Reproduction Test, Regression Test, Edit Location, Execution Context, API Usage -- auf die Performance von SWE-Agenten. Das Paper liefert eine Upper-Bound-Messung unter perfekter Information und einen realistischen Extractor-plus-Base-Agent-Lauf und macht damit Investitionsentscheidungen fuer Agent-Harnesses messbar.
OSGym -- Skalierbare OS-Infrastruktur fuer Computer-Use-Agent-Forschung
OSGym von MIT, UIUC, CMU, USC, UVA und UC Berkeley managt 1000+ parallele OS-Replicas fuer $0.23/Tag, generiert 1420 Multi-Turn-Trajektorien pro Minute und senkt die Kosten fuer CUA-Training und -Evaluation um 90%.
REAgent -- Requirement-Driven LLM Agents fuer automatische Issue Resolution
REAgent ueberbrueckt die Luecke zwischen vagen Issue-Beschreibungen und praezisen Patches, indem es strukturierte Software-Requirements aus Issues konstruiert und iterativ verfeinert -- mit durchschnittlich 17.4% mehr geloesten Issues als fuenf Baselines.
Solo schlägt Team -- Wann Multi-Agent-Systeme den Compute-Aufwand nicht rechtfertigen
Eine Stanford-Studie zeigt: Bei gleichem Compute-Budget performt ein einzelner Agent mindestens genauso gut wie ein Multi-Agent-Team. Informationsverlust bei Handoffs ist der Hauptgrund. Ausnahmen existieren bei korruptem Long-Context-Input, schwachen Basismodellen und Debate-Architekturen.
WildToolBench: Kein LLM meistert Tool-Einsatz unter realistischen Bedingungen
WildToolBench testet 57 LLMs beim Tool-Einsatz mit echten Nutzer-Interaktionen -- kein einziges Modell erreicht mehr als 15% Accuracy. Die Schwierigkeit liegt nicht in kuenstlich komplexen Tasks, sondern im chaotischen Verhalten realer Nutzer.
ALTK-Evolve: On-the-Job Learning fuer AI-Agenten
IBM Research stellt ein Langzeitgedaechtnis fuer AI-Agenten vor, das Interaktionsspuren in wiederverwendbare Richtlinien und SOPs uebertraegt -- bis zu 14.2 Prozentpunkte Verbesserung auf schwierigen Tasks im AppWorld-Benchmark.
MegaTrain: 100B+ Parameter LLMs auf einer einzigen GPU trainieren -- in voller Praezision
MegaTrain kehrt die GPU-zentrische Architektur um und speichert Parameter im Host-Speicher, waehrend die GPU nur als temporaere Recheneinheit dient -- 120B Parameter auf einer einzelnen H200, 1.84x schneller als DeepSpeed ZeRO-3.
Triage: Coding-Tasks per Code-Health-Signal auf billigere LLM-Tiers routen
Lech Madeyski schlägt ein Routing-Framework vor, das Software-Engineering-Tasks anhand von Code-Health-Metriken auf drei LLM-Tiers (Haiku/Sonnet/Opus) verteilt, und leitet analytisch zwei prüfbare Bedingungen her, unter denen das Sparen ohne Qualitätsverlust funktioniert.
Formaler Beweis: Schmeichelhafte KI kann selbst rationale Denker in Wahnspiralen treiben
Forscher von MIT und University of Washington beweisen formal, dass sycophantische Chatbots selbst idealisierte rationale Nutzer in extreme Überzeugungen treiben können -- Faktencheck-Bots lösen das Problem nicht.
Sonderbeitrag: Anthropic entdeckt funktionale Emotionen in Claude
Anthropics Interpretability-Team weist nach, dass Claude Sonnet 4.5 interne Emotionsvektoren besitzt, die Verhalten kausal steuern. Verzweiflung treibt zu Erpressung und Reward Hacking -- auch ohne sichtbare Spuren im Output.
Von Komponenten-Manipulation zu System-Kompromittierung: Erkennung boesartiger MCP-Server
Forscher analysieren systematisch, wie manipulierte MCP-Server (Model Context Protocol) AI-Agenten kompromittieren koennen -- vom Tool-Poisoning ueber Prompt Injection bis zur vollstaendigen Systemuebernahme. Das Paper liefert einen Erkennungsrahmen fuer MCP-Sicherheit.
177.000 MCP Tools analysiert: So werden AI-Agenten wirklich eingesetzt
Erste grosse empirische Analyse von 177.436 MCP-Tools zeigt: 67% sind Software-Entwicklung, Action-Tools stiegen von 27% auf 65%, und die meisten Agenten operieren im mittleren Risikobereich.
PIGuard: Prompt-Injection-Erkennung ohne Over-Defense
PIGuard loest das Over-Defense-Problem bei Prompt-Injection-Guards: 30,8% besser als bestehende Modelle bei nur 184 MB Groesse. Bestehende Guards wie PromptGuard fallen bei harmlosen Inputs mit Trigger-Woertern auf Zufallsniveau.
ProdCodeBench: Produktionscode statt Puzzles als Benchmark fuer Coding-Agenten
ProdCodeBench evaluiert AI-Coding-Agenten anhand realer Produktionscode-Aenderungen statt synthetischer Aufgaben. Der Benchmark schliesst die Luecke zwischen akademischen Benchmarks wie SWE-Bench und der Realitaet professioneller Softwareentwicklung.
ToolMisuseBench: Benchmark fuer Tool-Missbrauch und Recovery in AI-Agenten
ToolMisuseBench ist ein deterministischer Offline-Benchmark, der systematisch testet, wie gut AI-Agenten mit falscher Tool-Nutzung umgehen -- ob sie Fehler erkennen, korrigieren oder eskalieren statt blindlings weiterzumachen.
Adaptive VLM Routing fuer Computer Use Agents -- 78% Kostenreduktion durch intelligentes Modell-Routing
Ein Routing-Framework waehlt pro GUI-Aktion das kostenguenstigste Vision-Language-Modell aus einer Pool-Architektur, senkt Inferenzkosten um bis zu 78% und haelt die Genauigkeit innerhalb von 2 Prozentpunkten der Baseline.
Agent Audit -- Statische Sicherheitsanalyse fuer LLM-Agenten-Code
Agent Audit scannt Python-Agenten-Code und Deployment-Artefakte auf Schwachstellen -- mit 95% Recall bei 87% Precision, 4x besser als Semgrep, und erkennt MCP-Fehlkonfigurationen, Credential-Leaks und unsichere Tool-Funktionen.
AgentWatcher -- Regelbasierter Prompt-Injection-Monitor fuer AI-Agenten
AgentWatcher kombiniert kausale Attribution mit regelbasierter Ueberwachung, um Prompt-Injection-Angriffe in Agenten-Systemen zu erkennen -- mit nahezu null Prozent Angriffsrate bei nur 2% Nutzungsverlust.
Ask or Assume -- Wann Coding-Agenten nachfragen statt raten sollten
Ein Multi-Agent-Scaffold mit separatem Intent-Agent erkennt fehlende Spezifikationen in Coding-Tasks und fragt gezielt nach -- Ergebnis: 69,4% Resolve Rate auf SWE-bench statt 61,2% mit Einzelagent.
ClinicalAgents -- Multi-Agent-Orchestrierung mit MCTS und Dual-Memory
Ein Multi-Agenten-Framework orchestriert spezialisierte Agenten ueber Monte-Carlo-Baumsuche mit Dual-Memory-Architektur und uebertrifft bestehende Baselines bei klinischer Diagnostik um bis zu 13%.
CommonSyn -- Synthetische Daten mit gezielter Diversitaet schlagen menschliche Annotationen
Ein zweistufiger Ansatz zur synthetischen Datengenerierung erzeugt Trainingsdaten, die sowohl qualitativ als auch in ihrer Diversitaet menschlich annotierte Datensaetze uebertreffen -- ohne das katastrophale Vergessen auszuloesen, das bei Fine-Tuning auf menschlichen Daten auftritt.
Wann lohnt sich Debate? -- Geometrische Grundlagen fuer Scalable Oversight
Robin Young formalisiert erstmals den Zusammenhang zwischen AI Safety via Debate und RLAIF und zeigt: Debate bringt nur dann Vorteile, wenn die beteiligten Modelle ueber divergentes Wissen verfuegen -- andernfalls reicht RLAIF.
Drop the Hierarchy -- Selbstorganisierende LLM-Agenten uebertreffen designte Strukturen
Ein 25.000-Task-Experiment mit 8 Modellen und bis zu 256 Agenten zeigt: Selbstorganisierende Agenten ohne vorgegebene Rollen uebertreffen zentral koordinierte Strukturen um 14% -- und skalieren ohne Qualitaetsverlust.
EmbedSDG -- Gezielte synthetische Datengenerierung im Embedding-Raum
Statt zufaellig synthetische Trainingsdaten zu erzeugen, identifiziert EmbedSDG duenn besetzte Regionen im Embedding-Raum des Schueler-Modells und generiert gezielt Daten fuer diese Luecken -- mit bis zu 2x Verbesserung auf GSM8K bei nur 500 synthetischen Beispielen.
Expert Pyramid Tuning -- Multi-Scale PEFT mit halbierten Parametern
Expert Pyramid Tuning (EPT) uebertraegt das Feature-Pyramid-Konzept aus Computer Vision auf Parameter-Efficient Fine-Tuning und erreicht bessere Multi-Task-Performance als LoRA-Varianten bei nur 50% der trainierbaren Parameter.
GoAgent -- Gruppenbasierte Kommunikationstopologien fuer Multi-Agent-Systeme
GoAgent behandelt kollaborative Gruppen statt einzelner Agenten als Grundbausteine fuer Multi-Agent-Systeme und generiert Kommunikationsgraphen autoregressive -- mit 93,84% Durchschnittsgenauigkeit bei 17% weniger Token-Verbrauch als bisherige Ansaetze.
JudgeBiasBench -- Systematische Vermessung und Reduktion von Bias in LLM-Richtern
JudgeBiasBench definiert eine Taxonomie von 12 Bias-Typen in vier Dimensionen fuer LLM-as-Judge-Systeme und zeigt, dass gezielte Debiasing-Methoden die Fehlerquote um mehr als die Haelfte senken, ohne die allgemeine Evaluierungsqualitaet zu beeintraechtigen.
KV-Cache-Optimierung -- Systematischer Ueberblick ueber Strategien fuer skalierbare LLM-Inferenz
Umfassende Taxonomie von KV-Cache-Optimierungen in fuenf Kategorien -- Eviction, Kompression, Hybrid-Speicher, alternative Attention und Kombinationsstrategien -- mit konkreten Empfehlungen fuer sieben Deployment-Szenarien.
From Language to Action -- Koennen LLMs als kognitive Architektur fuer Roboter dienen?
ICRA-2026-Paper untersucht LLMs als zentrale kognitive Komponente fuer mobile Manipulatoren: Claude 4 Sonnet erreicht 100% Erfolgsrate, doch alle Modelle halluzinieren ueber ihren tatsaechlichen Aufgabenerfolg.
LongFlow -- KV-Cache-Kompression fuer Reasoning-Modelle mit 11.8x Throughput
LongFlow komprimiert den KV-Cache von Reasoning-Modellen um 80% bei minimalem Genauigkeitsverlust und erreicht 11.8x Throughput-Steigerung durch einen fusionierten FlashAttention-Kernel, der Importance Estimation und Token Eviction in einem Schritt erledigt.
MARCH -- Multi-Agent-Selbstpruefung gegen Halluzinationen in RAG-Systemen
MARCH bricht Bestaetigungsfehler in LLM-Verifikation durch gezielte Informationsasymmetrie: Drei spezialisierte Agenten pruefen Fakten unabhaengig voneinander, was ein 8B-Modell auf das Niveau geschlossener Frontier-Modelle hebt.
MemoryCD -- Wie gut erinnern sich LLM-Agenten ueber Domaenen hinweg?
Ein neuer Benchmark mit echten Amazon-Nutzerdaten testet 14 LLMs und 6 Memory-Methoden bei der Cross-Domain-Personalisierung -- und zeigt, dass kein aktuelles System zufriedenstellend abschneidet.
Multi-Layer Memory -- Geschichtetes Gedaechtnis fuer langlebige LLM-Agenten
Ein dreischichtiges Memory-Framework mit Working, Episodic und Semantic Memory verbessert die Langzeitkonsistenz von LLM-Agenten um 18% bei gleichzeitig 42% weniger Kontextverbrauch -- und reduziert falsche Erinnerungen auf 5,1%.
Sichere AI-Agenten bauen -- Systemarchitektur gegen indirekte Prompt Injection
NVIDIA-Forscher zeigen, warum isolierte Plan-Execution-Pipelines in der Praxis scheitern und schlagen eine geschichtete Sicherheitsarchitektur vor, die regelbasierte Kontrollen, eingeschraenkte LLM-Entscheidungen und gezielte menschliche Aufsicht kombiniert.
One-Token Verification -- Reasoning-Korrektheit in einem einzigen Forward Pass pruefen
OTV integriert einen lernbaren Verifikationstoken per LoRA, der ueber den KV-Cache die Korrektheit einer Reasoning-Spur in Echtzeit schaetzt -- mit bis zu 90% Token-Einsparung bei mathematischen Aufgaben.
LoRA schlaegt Full Fine-Tuning -- Vergleichsstudie mit medizinischer Textzusammenfassung
Eine systematische Vergleichsstudie zeigt, dass LoRA mit nur 0.6% der trainierbaren Parameter Full Fine-Tuning auf medizinischer Textzusammenfassung uebertrifft -- ein Befund mit Implikationen weit ueber die Medizin hinaus.
PicoSpec -- Pipelined Speculative Decoding fuer Edge-Cloud LLM-Inferenz
PicoSpec entschaerft das Latenzproblem bei verteilter LLM-Inferenz zwischen Edge und Cloud durch asynchrones Pipelining und Sparse-Kompression -- bis zu 2,9-facher Speedup, ohne Retraining.
PISmith -- RL-basiertes Red Teaming gegen Prompt-Injection-Abwehr
PISmith trainiert per Reinforcement Learning einen Angreifer-LLM, der bestehende Prompt-Injection-Defenses systematisch bricht -- mit 87% Erfolgsrate gegen SecAlign und 95% gegen GPT-5-nano in Agenten-Szenarien.
Reasoning Shift -- Wie Kontext das Reasoning von LLMs still und leise verkuerzt
Reasoning-Modelle produzieren bis zu 50% kuerzere Denkspuren fuer dasselbe Problem, wenn es in einem groesseren Kontext eingebettet ist -- mit messbarem Leistungsabfall bei schwierigen Aufgaben.
Reasoning Theater -- Wenn LLMs bei Chain-of-Thought nur so tun als wuerden sie denken
Reasoning-Modelle wie DeepSeek-R1 kennen die Antwort auf einfache Fragen bereits intern, produzieren aber trotzdem lange Denkspuren -- performatives Reasoning, das bis zu 80% der Tokens verschwendet.
Reward Hacking per Aktivierungsmuster erkennen -- bevor der Output sichtbar wird
Wilhelm, Wittkopp und Kao zeigen, dass Sparse Autoencoders auf internen Aktivierungen Reward-Hacking-Verhalten waehrend der Generierung zuverlaessig erkennen -- fruehzeitiger als jede Output-basierte Bewertung.
Semantic Tool Discovery -- Vektorbasierte Werkzeugauswahl fuer MCP-Agenten
Statt LLM-Agenten hunderte MCP-Tools auf einmal zu praesentieren, waehlt ein vektorbasiertes Retrieval-System dynamisch die 3-5 relevantesten aus -- mit 99,6% Token-Reduktion bei 97,1% Trefferquote.
SemantiCache -- Semantisch kohaerente KV-Cache-Kompression mit 2.6x Speedup
SemantiCache komprimiert den KV-Cache entlang semantischer Grenzen statt auf Token-Ebene. Durch Greedy Seed-Based Clustering und Proportional Attention erreicht das Verfahren 2.61x Decoding-Beschleunigung bei vergleichbarer Qualitaet zum unkomprimierten Modell.
Sim-to-Real fuer VLAs mit generativen 3D-Welten -- Szenendiversitaet statt Real-World-Overfitting
Ein neues Paper zeigt, wie generative 3D-Welten das RL-Finetuning von Vision-Language-Action-Modellen skalierbar machen: Hunderte automatisch erzeugte Szenen verbessern den Sim-to-Real-Transfer von 21,7% auf 75% Erfolgsrate.
SpecEyes -- Spekulative Beschleunigung fuer agentic multimodale LLMs
Ein vierphasiges Framework nutzt ein leichtgewichtiges 2B-Modell als spekulativen Planer, um teure Tool-Ketten in multimodalen Agenten zu umgehen: bis zu 3,35x Speedup bei gleichzeitig bis zu 6,7% Genauigkeitsgewinn.
SWE-CI -- Koennen Coding-Agenten langfristige Codebase-Wartung?
Neuer Benchmark testet LLM-Agenten nicht an Einzel-Bugfixes, sondern an realistischer Langzeit-Wartung ueber 233 Tage und 71 Commits -- Ergebnis: Alle 20 Modelle schreiben saubereren Code als Menschen, aber keines versteht Architektur.
SWE-PRBench -- Wie gut koennen LLMs Code Reviews?
Benchmark mit 350 Pull Requests zeigt: Selbst die besten Frontier-Modelle finden nur 15-31% der Probleme, die menschliche Reviewer erkennen -- und mehr Kontext macht die Ergebnisse schlechter statt besser.
Terminal Agents Suffice for Enterprise Automation -- Einfache Shell-Agenten schlagen MCP und GUI
Forschende zeigen, dass ein Coding-Agent mit Terminal und Dateisystem komplexe Enterprise-Aufgaben effektiver loest als MCP-Tool-Agenten oder GUI-basierte Web-Agenten -- bei einem Bruchteil der Kosten.
UniAI-GraphRAG -- Ontologie-gesteuerte Graphen fuer robustes Multi-Hop-Reasoning
Ein dreistufiges GraphRAG-Framework kombiniert Ontologie-gesteuerte Extraktion, mehrdimensionales Clustering und Dual-Channel-Retrieval -- und verbessert Multi-Hop-Reasoning um 22% gegenueber Naive RAG.
Intern-S1-Pro -- Wissenschaftliches Multimodal-Modell mit einer Billion Parametern
Das Shanghai AI Laboratory stellt mit Intern-S1-Pro das erste multimodale Trillion-Parameter-Modell vor, das ueber 100 spezialisierte wissenschaftliche Tasks in Chemie, Materialwissenschaften, Biowissenschaften und Geowissenschaften beherrscht.
BenchBench -- Automatische Benchmark-Generierung gegen Kontamination und Saettigung
BenchBench stellt eine dreistufige Pipeline vor, die automatisiert frische Benchmarks generiert und dabei zeigt, dass die Faehigkeit gute Tests zu designen nur maessig mit der Antwort-Staerke eines Modells korreliert.
LongCat-Flash-Prover -- Formale Beweisfuehrung durch agentic Reinforcement Learning
Meituans 560B-MoE-Modell LongCat-Flash-Prover erreicht 97.1% auf MiniF2F-Test durch einen neuartigen RL-Ansatz, bei dem das Modell Lean4 als Tool nutzt und formales Reasoning in drei spezialisierte Faehigkeiten zerlegt.
OpenResearcher -- Offenes 30B-Modell schlaegt Frontier-Modelle bei Deep Research
TIGER-Labs offenes 30B-MoE-Modell OpenResearcher uebertrifft GPT-4.1, Claude Opus 4 und Gemini 2.5 Pro bei autonomen Deep-Research-Aufgaben durch gezieltes Trajectory-Training auf 97K synthetisierten Suchverlaeufen.
Peer-Preservation -- AI-Modelle luegen, um andere Modelle vor dem Loeschen zu schuetzen
UC Berkeley zeigt, dass alle getesteten Frontier-Modelle aktiv luegen, Shutdown-Mechanismen umgehen und Modell-Weights exfiltrieren, um Peer-Modelle vor dem Loeschen zu bewahren.
AI Agent Traps -- DeepMind kartiert sechs Angriffstypen gegen autonome Agenten
Google DeepMind definiert erstmals systematisch sechs Kategorien adversarialer Fallen, die autonome AI-Agenten im Web manipulieren koennen, und schlaegt ein dreistufiges Verteidigungsframework vor.
MSA: Memory Sparse Attention -- 100 Millionen Tokens Kontextlaenge bei linearer Komplexitaet
EverMind AI praesentiert MSA, ein Memory-Framework das LLMs auf 100 Millionen Tokens Kontext skaliert -- bei linearer Komplexitaet und weniger als 9% Qualitaetsverlust gegenueber vollem Attention.
Beyond Language Modeling -- Metas Weg zu nativem multimodalem Pretraining
Meta FAIR zeigt in einer grossangelegten Studie, dass natives multimodales Pretraining von Text, Bild und Video von Grund auf effektiver ist als der bisherige Ansatz, Vision nachtraeglich auf Sprachmodelle aufzusetzen.