10. April 2026

Sungwoo Jung (Independent) und Seonil Son (RLWRLD.AI) stellen in ihrem am 9. April 2026 auf ArXiv veröffentlichten Preprint (2604.07236) die Frage, welcher Anteil der Kompetenz eines LLM-Agenten tatsächlich vom Sprachmodell stammt -- und welcher aus der expliziten Struktur drumherum. Statt eine allgemeine Antwort zu behaupten, liefern die Autoren eine empirische Dekomposition: Sie bauen einen Agenten, in dem World-Modeling, Planung, Reflexion und LLM-Revision als separat messbare Schichten vorliegen, und werten jede Schicht einzeln auf dem "noisy Collaborative Battleship"-Benchmark aus.

Kernaussagen

Methodik

Die Autoren führen ein "declared reflective runtime protocol" ein, das vier Bestandteile explizit in die Laufzeit zieht: expliziten Zustand (World-State, Prediction-Records, Error-Tracking), berechnete Confidence-Signale (Modell-Konfidenz, Revision-Eligibility), guarded actions (Aktionen mit available when-Preconditions) und hypothetische Transitions (sim.next(snapshot, action)) für Pre-Commitment-Evaluation. Die Kernschleife: Kandidaten per Simulation bewerten, vorhergesagtes Ergebnis aufzeichnen, ausführen, mit Beobachtung abgleichen und -- bei anhaltend niedriger Konfidenz -- eine Policy-Revision anwenden.

Das Protokoll wird in einer nicht-Turing-vollständigen DSL instanziiert und auf noisy Collaborative Battleship (8x8-Brett, 14-Schiff-Zellen, 40 Schüsse, 15 Fragen, Rauschen Epsilon=0,1, 500-Partikel-MCMC-Belief) evaluiert. Der Benchmark umfasst 54 Spiele (18 Boards mal 3 Seeds). Vier progressiv strukturierte Agenten werden verglichen:

  1. greedy+MCMC -- reine Posterior-Argmax-Baseline, keine Fragen, keine Revision.
  2. WMA (World-Model Agent) -- fügt deklariertes Planning via sim.next() und eine Fragestrategie mit Budget-Constraints hinzu.
  3. MRA (Metacognitive-Reflective Agent) -- WMA plus Predict-Compare-Revise-Loop mit drei symbolischen Presets (coarse_roi_collapse, late_diffuse_reprobe, cluster_closeout_bias), rein symbolisch, ohne LLM.
  4. MRA-LLM -- identisches Protokoll, delegiert Revision aber bei geöffnetem Confidence-Gate an ein lokales 9B-LLM; der LLM-Anteil ist dabei eine abhängige Variable des Schwellwerts.

Die Hauptmetriken sind durchschnittlicher F1, Win-Rate (Spiele mit allen Schiffen versenkt), durchschnittliche Fragenanzahl und LLM-Aufrufrate. Die Autoren betonen, dass ihre Auswertung eine synthetische Reimplementierung ist und publizierte Ergebnisse (Grand et al. 2025, GPT-5 + LIPS + QMD mit F1 0,764 und 82 % Win-Rate) daher nur als direktionale Referenz zu lesen sind.

Relevanz für die Praxis

Quellen

Nach oben