2. April 2026

Wann lohnt sich Debate? -- Geometrische Grundlagen fuer Scalable Oversight

Robin Young hat im Maerz 2026 das erste formale Framework vorgelegt, das AI Safety via Debate und Reinforcement Learning from AI Feedback (RLAIF) in einen gemeinsamen theoretischen Rahmen stellt. Die zentrale Frage: Unter welchen Bedingungen bietet ein Debate-Protokoll mit mehreren Modellen tatsaechlich Vorteile gegenueber einer Einzelmodell-Bewertung?

Kernaussagen

Methodik

Das Paper modelliert die Wissensrepraesentationen zweier Modelle als k-dimensionale Unterraeume in einem d-dimensionalen Raum. Die Wissensdivergenz wird ueber Hauptwinkel (principal angles) zwischen diesen Unterraeumen quantifiziert. Konstitutionelle Bewertung wird als lineares Funktional formalisiert, und der Debate-Vorteil ergibt sich aus der Differenz zwischen dem kombinierten Unterraum beider Modelle und dem einzelnen Unterraum.

Zentrale Resultate umfassen Theorem 6 (geschlossene Form des Debate-Vorteils mit scharfen Grenzen), Korollar 7 (Aequivalenz bei identischem Korpus), Proposition 15 (Debate erreicht Ergebnisse, die keinem Einzelmodell zugaenglich sind) und Proposition 17 (scharfe Schwelle fuer Koordinationsversagen unter adversarialen Anreizen).

Relevanz fuer die Praxis

Das Paper beantwortet eine Frage, die jedes Team betrifft, das AI-ueber-AI-Bewertungen einsetzt: Lohnt sich der Aufwand eines Multi-Modell-Setups? Die Antwort ist differenziert und direkt umsetzbar:

Die Theorie verbindet ausserdem Debate mit dem ELK-Problem (Eliciting Latent Knowledge): Ein zweites Modell mit unabhaengigem Wissen fungiert effektiv als Interpretability-Sonde.

Quellen

Nach oben