Sungwoo Jung (Independent) und Seonil Son (RLWRLD.AI) stellen in ihrem am 9. April 2026 auf ArXiv veröffentlichten Preprint (2604.07236) die Frage, welcher Anteil der Kompetenz eines LLM-Agenten tatsächlich vom Sprachmodell stammt -- und welcher aus der expliziten Struktur drumherum. Statt eine allgemeine Antwort zu behaupten, liefern die Autoren eine empirische Dekomposition: Sie bauen einen Agenten, in dem World-Modeling, Planung, Reflexion und LLM-Revision als separat messbare Schichten vorliegen, und werten jede Schicht einzeln auf dem "noisy Collaborative Battleship"-Benchmark aus.
Kernaussagen
- Explizites World-Model-Planning ist der größte Hebel: Eine auf
sim.next()-Bewertung beruhende deklarierte Planung hebt die Win-Rate gegenüber einer reinen Greedy-Posterior-Baseline um 24,1 Prozentpunkte (von 50,0 % auf 74,1 %) und den F1-Wert um +0,017 -- beides ohne jeden LLM-Aufruf. - Symbolische Reflexion funktioniert als Laufzeitmechanismus, ist aber in der aktuellen Preset-Konfiguration nicht netto-positiv: Die Revision-on-Variante fällt in Summe minimal zurück (-0,001 F1, -1,8 pp Win-Rate), obwohl sie auf einzelnen Boards F1-Gewinne von bis zu +0,140 erzielt.
- Sparsame LLM-Revision bringt nur kleine, nicht-monotone Effekte: Bei einem Konfidenz-Schwellwert von 1,0 wird das 9B-LLM an 4,3 Prozent der Züge (101 von insgesamt 2.350+) aufgerufen; das hebt den F1-Wert um +0,005, senkt aber die Win-Rate von 31 auf 29 von 54 Spielen.
- F1-Verbesserung und Win-Rate divergieren: LLM-Revision erhöht die lokale Trefferqualität, verbraucht aber Fragen aus dem Budget, die die symbolische Policy für das Spielende reserviert hätte.
- Schwellwert-Sweep zeigt Nicht-Monotonie: Schwellwerte 0,0 und 0,5 landen in einem "No-LLM-Basin", erst 1,0 aktiviert Revision; das qualitative Muster reproduziert sich bei 18 und 54 Spielen.
- Methodischer Beitrag statt Leaderboard-Claim: Der Kernpunkt ist nicht ein neuer SOTA-Wert, sondern dass die Externalisierung von Reflexion in deklarierte Runtime-Struktur den marginalen Nutzen des LLM überhaupt erst messbar macht.
Methodik
Die Autoren führen ein "declared reflective runtime protocol" ein, das vier Bestandteile explizit in die Laufzeit zieht: expliziten Zustand (World-State, Prediction-Records, Error-Tracking), berechnete Confidence-Signale (Modell-Konfidenz, Revision-Eligibility), guarded actions (Aktionen mit available when-Preconditions) und hypothetische Transitions (sim.next(snapshot, action)) für Pre-Commitment-Evaluation. Die Kernschleife: Kandidaten per Simulation bewerten, vorhergesagtes Ergebnis aufzeichnen, ausführen, mit Beobachtung abgleichen und -- bei anhaltend niedriger Konfidenz -- eine Policy-Revision anwenden.
Das Protokoll wird in einer nicht-Turing-vollständigen DSL instanziiert und auf noisy Collaborative Battleship (8x8-Brett, 14-Schiff-Zellen, 40 Schüsse, 15 Fragen, Rauschen Epsilon=0,1, 500-Partikel-MCMC-Belief) evaluiert. Der Benchmark umfasst 54 Spiele (18 Boards mal 3 Seeds). Vier progressiv strukturierte Agenten werden verglichen:
- greedy+MCMC -- reine Posterior-Argmax-Baseline, keine Fragen, keine Revision.
- WMA (World-Model Agent) -- fügt deklariertes Planning via
sim.next()und eine Fragestrategie mit Budget-Constraints hinzu. - MRA (Metacognitive-Reflective Agent) -- WMA plus Predict-Compare-Revise-Loop mit drei symbolischen Presets (
coarse_roi_collapse,late_diffuse_reprobe,cluster_closeout_bias), rein symbolisch, ohne LLM. - MRA-LLM -- identisches Protokoll, delegiert Revision aber bei geöffnetem Confidence-Gate an ein lokales 9B-LLM; der LLM-Anteil ist dabei eine abhängige Variable des Schwellwerts.
Die Hauptmetriken sind durchschnittlicher F1, Win-Rate (Spiele mit allen Schiffen versenkt), durchschnittliche Fragenanzahl und LLM-Aufrufrate. Die Autoren betonen, dass ihre Auswertung eine synthetische Reimplementierung ist und publizierte Ergebnisse (Grand et al. 2025, GPT-5 + LIPS + QMD mit F1 0,764 und 82 % Win-Rate) daher nur als direktionale Referenz zu lesen sind.
Relevanz für die Praxis
- Der erste Euro gehört dem Planer, nicht dem Modell: Wer einen Agenten mit kleinem Budget baut, holt das meiste aus einem expliziten, simulierbaren World-Model und einer Fragestrategie mit Budget-Constraints -- nicht aus einem größeren LLM. Der +24-Prozentpunkte-Sprung von greedy+MCMC auf WMA passiert komplett ohne LLM-Aufruf.
- Self-Revision ist kein Gratismittagessen: Das Paper ist ein ernüchternder Datenpunkt gegen die implizite Annahme vieler Reflexion/Reflection-Pipelines, dass mehr Kritik automatisch besser ist. In dieser Konfiguration ist die symbolische Revision auf aggregierter Ebene negativ -- sie hilft auf "Belief-Collapse-Boards" und schadet auf stabilen Boards. Produktiv-Teams sollten Revision-Trigger pro Fall kalibrieren, nicht generisch aktivieren.
- LLM-Revision kann lokal helfen und global schaden: Die F1/Win-Rate-Divergenz ist der praktisch wichtigste Befund. Wenn der LLM-Call an der falschen Stelle einen Frage-Turn konsumiert, fällt das Spiel aus dem Zeitbudget. Für Agentic-Workflows mit harten Step- oder Kosten-Budgets heißt das: Revision-Kosten müssen im selben Budget gebucht werden wie die Basisaktionen, sonst optimiert man gegen sich selbst.
- Externalisierung macht Debugging erst möglich: Der unter der Haube wichtigste Beitrag für Engineers ist nicht eine Zahl, sondern das Muster -- Prediction-Error, Calibration-Error, Confidence, Revision-Eligibility und Revision-Outcome als First-Class-Runtime-Variablen statt als Prompt-Patterns. Das verwandelt "das Modell hat halluziniert" in "Gate X bei Turn Y mit Konfidenz Z ausgelöst" und ist genau die Beobachtbarkeit, die Reflexion-Pipelines heute typischerweise vermissen lassen.
- Wichtige Einschränkung: Alle Ergebnisse stammen aus einer einzigen Domäne (Battleship) mit einem einzigen lokalen 9B-Modell und 54 Spielen. Das Paper beantwortet nicht die Titelfrage "welche Modellgröße reicht", sondern "welchen marginalen Beitrag liefert das LLM, wenn Welt und Reflexion bereits explizit sind". Die Design-Regel am Ende des Papers bringt es auf den Punkt: Declare what you can, reflect symbolically where possible, and reserve the LLM for the residual that the declared substrate cannot resolve.
Quellen
- ArXiv: How Much LLM Does a Self-Revising Agent Actually Need? (2604.07236)
- PDF-Volltext
- Runtime-Repository: manifesto-ai/core
- Battleship-Evaluation: eggplantiny/battleship-manifesto