Wann lohnt sich Debate? -- Geometrische Grundlagen fuer Scalable Oversight
Robin Young hat im Maerz 2026 das erste formale Framework vorgelegt, das AI Safety via Debate und Reinforcement Learning from AI Feedback (RLAIF) in einen gemeinsamen theoretischen Rahmen stellt. Die zentrale Frage: Unter welchen Bedingungen bietet ein Debate-Protokoll mit mehreren Modellen tatsaechlich Vorteile gegenueber einer Einzelmodell-Bewertung?
Kernaussagen
- Debate = RLAIF bei identischen Daten: Wenn zwei Modelle auf denselben Trainingsdaten basieren, kollabiert Debate zu RLAIF -- der Mehraufwand bringt keinen Informationsgewinn. Dies erklaert, warum Modellhomogenitaet die Effektivitaet von AI-Oversight unterggraebt.
- Phasenuebergang bestimmt den Wert: Der Vorteil von Debate gegenueber RLAIF folgt einer exakten geschlossenen Form, die einen Phasenuebergang aufweist. Bei geringer Wissensdivergenz ist der Vorteil quadratisch klein (vernachlaessigbar). Bei grosser Divergenz wird er linear -- Debate wird unverzichtbar.
- Drei Wissensregime: Das Framework unterscheidet geteiltes Wissen (kein Debate-Vorteil), einseitiges privates Wissen (Debate erzwingt Offenlegung) und kompositorisches Wissen (beide Modelle muessen kooperieren). Im kompositorischen Regime existiert eine scharfe Schwelle, ab der adversariale Anreize Kooperation zum Scheitern bringen.
- Modellvielfalt verbessert Oversight: Die Theorie sagt vorher, dass spezialisierte Modelle mit unterschiedlichen Trainingsdomaenen die besten Debate-Settings erzeugen. Je groesser die Hauptwinkel zwischen den Repraesentationsraeumen, desto wertvoller wird Debate.
Methodik
Das Paper modelliert die Wissensrepraesentationen zweier Modelle als k-dimensionale Unterraeume in einem d-dimensionalen Raum. Die Wissensdivergenz wird ueber Hauptwinkel (principal angles) zwischen diesen Unterraeumen quantifiziert. Konstitutionelle Bewertung wird als lineares Funktional formalisiert, und der Debate-Vorteil ergibt sich aus der Differenz zwischen dem kombinierten Unterraum beider Modelle und dem einzelnen Unterraum.
Zentrale Resultate umfassen Theorem 6 (geschlossene Form des Debate-Vorteils mit scharfen Grenzen), Korollar 7 (Aequivalenz bei identischem Korpus), Proposition 15 (Debate erreicht Ergebnisse, die keinem Einzelmodell zugaenglich sind) und Proposition 17 (scharfe Schwelle fuer Koordinationsversagen unter adversarialen Anreizen).
Relevanz fuer die Praxis
Das Paper beantwortet eine Frage, die jedes Team betrifft, das AI-ueber-AI-Bewertungen einsetzt: Lohnt sich der Aufwand eines Multi-Modell-Setups? Die Antwort ist differenziert und direkt umsetzbar:
- Gleiche Modellbasis? RLAIF reicht. Wer zwei Instanzen desselben Modells gegeneinander debattieren laesst, verschwendet Rechenzeit.
- Unterschiedliche Modelle? Debate lohnt sich. Teams sollten bewusst Modelle mit unterschiedlichen Trainingsdomaenen oder Architekturen kombinieren.
- Vorsicht bei adversarialen Anreizen: In Szenarien, die kompositorisches Wissen erfordern, koennen zu starke adversariale Anreize das Protokoll zerstoeren. Die Schwelle ist scharf -- ein graduelles Herantasten an die richtige Anreizstaerke ist noetig.
- Kurze Debatten bei aehnlichen Modellen: Modelle, die sich nur im Finetuning unterscheiden, brauchen wenige Runden. Fundamental verschiedene Architekturen brauchen laengere Debatten.
Die Theorie verbindet ausserdem Debate mit dem ELK-Problem (Eliciting Latent Knowledge): Ein zweites Modell mit unabhaengigem Wissen fungiert effektiv als Interpretability-Sonde.