Wie viel LLM braucht ein selbst-revidierender Agent wirklich?

10. April 2026

Sungwoo Jung (Independent) und Seonil Son (RLWRLD.AI) stellen in ihrem am 9. April 2026 auf ArXiv veröffentlichten Preprint (2604.07236) die Frage, welcher Anteil der Kompetenz eines LLM-Agenten tatsächlich vom Sprachmodell stammt -- und welcher aus der expliziten Struktur drumherum. Statt eine allgemeine Antwort zu behaupten, liefern die Autoren eine empirische Dekomposition: Sie bauen einen Agenten, in dem World-Modeling, Planung, Reflexion und LLM-Revision als separat messbare Schichten vorliegen, und werten jede Schicht einzeln auf dem "noisy Collaborative Battleship"-Benchmark aus.

Kernaussagen

Explizites World-Model-Planning ist der größte Hebel: Eine auf sim.next()-Bewertung beruhende deklarierte Planung hebt die Win-Rate gegenüber einer reinen Greedy-Posterior-Baseline um 24,1 Prozentpunkte (von 50,0 % auf 74,1 %) und den F1-Wert um +0,017 -- beides ohne jeden LLM-Aufruf.
Symbolische Reflexion funktioniert als Laufzeitmechanismus, ist aber in der aktuellen Preset-Konfiguration nicht netto-positiv: Die Revision-on-Variante fällt in Summe minimal zurück (-0,001 F1, -1,8 pp Win-Rate), obwohl sie auf einzelnen Boards F1-Gewinne von bis zu +0,140 erzielt.
Sparsame LLM-Revision bringt nur kleine, nicht-monotone Effekte: Bei einem Konfidenz-Schwellwert von 1,0 wird das 9B-LLM an 4,3 Prozent der Züge (101 von insgesamt 2.350+) aufgerufen; das hebt den F1-Wert um +0,005, senkt aber die Win-Rate von 31 auf 29 von 54 Spielen.
F1-Verbesserung und Win-Rate divergieren: LLM-Revision erhöht die lokale Trefferqualität, verbraucht aber Fragen aus dem Budget, die die symbolische Policy für das Spielende reserviert hätte.
Schwellwert-Sweep zeigt Nicht-Monotonie: Schwellwerte 0,0 und 0,5 landen in einem "No-LLM-Basin", erst 1,0 aktiviert Revision; das qualitative Muster reproduziert sich bei 18 und 54 Spielen.
Methodischer Beitrag statt Leaderboard-Claim: Der Kernpunkt ist nicht ein neuer SOTA-Wert, sondern dass die Externalisierung von Reflexion in deklarierte Runtime-Struktur den marginalen Nutzen des LLM überhaupt erst messbar macht.

Methodik

Die Autoren führen ein "declared reflective runtime protocol" ein, das vier Bestandteile explizit in die Laufzeit zieht: expliziten Zustand (World-State, Prediction-Records, Error-Tracking), berechnete Confidence-Signale (Modell-Konfidenz, Revision-Eligibility), guarded actions (Aktionen mit available when-Preconditions) und hypothetische Transitions (sim.next(snapshot, action)) für Pre-Commitment-Evaluation. Die Kernschleife: Kandidaten per Simulation bewerten, vorhergesagtes Ergebnis aufzeichnen, ausführen, mit Beobachtung abgleichen und -- bei anhaltend niedriger Konfidenz -- eine Policy-Revision anwenden.

Das Protokoll wird in einer nicht-Turing-vollständigen DSL instanziiert und auf noisy Collaborative Battleship (8x8-Brett, 14-Schiff-Zellen, 40 Schüsse, 15 Fragen, Rauschen Epsilon=0,1, 500-Partikel-MCMC-Belief) evaluiert. Der Benchmark umfasst 54 Spiele (18 Boards mal 3 Seeds). Vier progressiv strukturierte Agenten werden verglichen:

greedy+MCMC -- reine Posterior-Argmax-Baseline, keine Fragen, keine Revision.
WMA (World-Model Agent) -- fügt deklariertes Planning via sim.next() und eine Fragestrategie mit Budget-Constraints hinzu.
MRA (Metacognitive-Reflective Agent) -- WMA plus Predict-Compare-Revise-Loop mit drei symbolischen Presets (coarse_roi_collapse, late_diffuse_reprobe, cluster_closeout_bias), rein symbolisch, ohne LLM.
MRA-LLM -- identisches Protokoll, delegiert Revision aber bei geöffnetem Confidence-Gate an ein lokales 9B-LLM; der LLM-Anteil ist dabei eine abhängige Variable des Schwellwerts.

Die Hauptmetriken sind durchschnittlicher F1, Win-Rate (Spiele mit allen Schiffen versenkt), durchschnittliche Fragenanzahl und LLM-Aufrufrate. Die Autoren betonen, dass ihre Auswertung eine synthetische Reimplementierung ist und publizierte Ergebnisse (Grand et al. 2025, GPT-5 + LIPS + QMD mit F1 0,764 und 82 % Win-Rate) daher nur als direktionale Referenz zu lesen sind.

Relevanz für die Praxis

Der erste Euro gehört dem Planer, nicht dem Modell: Wer einen Agenten mit kleinem Budget baut, holt das meiste aus einem expliziten, simulierbaren World-Model und einer Fragestrategie mit Budget-Constraints -- nicht aus einem größeren LLM. Der +24-Prozentpunkte-Sprung von greedy+MCMC auf WMA passiert komplett ohne LLM-Aufruf.
Self-Revision ist kein Gratismittagessen: Das Paper ist ein ernüchternder Datenpunkt gegen die implizite Annahme vieler Reflexion/Reflection-Pipelines, dass mehr Kritik automatisch besser ist. In dieser Konfiguration ist die symbolische Revision auf aggregierter Ebene negativ -- sie hilft auf "Belief-Collapse-Boards" und schadet auf stabilen Boards. Produktiv-Teams sollten Revision-Trigger pro Fall kalibrieren, nicht generisch aktivieren.
LLM-Revision kann lokal helfen und global schaden: Die F1/Win-Rate-Divergenz ist der praktisch wichtigste Befund. Wenn der LLM-Call an der falschen Stelle einen Frage-Turn konsumiert, fällt das Spiel aus dem Zeitbudget. Für Agentic-Workflows mit harten Step- oder Kosten-Budgets heißt das: Revision-Kosten müssen im selben Budget gebucht werden wie die Basisaktionen, sonst optimiert man gegen sich selbst.
Externalisierung macht Debugging erst möglich: Der unter der Haube wichtigste Beitrag für Engineers ist nicht eine Zahl, sondern das Muster -- Prediction-Error, Calibration-Error, Confidence, Revision-Eligibility und Revision-Outcome als First-Class-Runtime-Variablen statt als Prompt-Patterns. Das verwandelt "das Modell hat halluziniert" in "Gate X bei Turn Y mit Konfidenz Z ausgelöst" und ist genau die Beobachtbarkeit, die Reflexion-Pipelines heute typischerweise vermissen lassen.
Wichtige Einschränkung: Alle Ergebnisse stammen aus einer einzigen Domäne (Battleship) mit einem einzigen lokalen 9B-Modell und 54 Spielen. Das Paper beantwortet nicht die Titelfrage "welche Modellgröße reicht", sondern "welchen marginalen Beitrag liefert das LLM, wenn Welt und Reflexion bereits explizit sind". Die Design-Regel am Ende des Papers bringt es auf den Punkt: Declare what you can, reflect symbolically where possible, and reserve the LLM for the residual that the declared substrate cannot resolve.

Quellen

Nach oben