One-Token Verification -- Reasoning-Korrektheit in einem einzigen Forward Pass pruefen
Wer mit Reasoning-Modellen arbeitet, kennt das Problem: Um die Loesungsqualitaet zu erhoehen, generiert man mehrere Reasoning-Spuren parallel und waehlt per Majority Voting die beste aus. Das funktioniert, kostet aber enorm viele Tokens. Zhuang et al. praesentieren mit One-Token Verification (OTV) einen Ansatz, der die Korrektheit einer Reasoning-Spur in Echtzeit schaetzt -- waehrend sie generiert wird, in einem einzigen Forward Pass, ohne externes Verifier-Modell.
Kernaussagen
OTV fuegt dem Modell einen speziellen Verifikationstoken "[ToT]" hinzu, der ueber einen LoRA-Adapter aktiviert wird. Dieser Token greift auf den bestehenden KV-Cache der Reasoning-Spur zu und schaetzt die Wahrscheinlichkeit, dass die aktuelle Loesung korrekt ist. Der entscheidende Vorteil gegenueber externen Verifiern: OTV nutzt die internen Repraesentationen des Modells, die waehrend des Reasonings ohnehin berechnet werden, und erfordert keine zusaetzliche Inferenz eines separaten Modells.
Die Ergebnisse auf mathematischen Benchmarks sind ueberzeugend. Bei Weighted Majority Voting mit 128 Reasoning-Spuren erreicht OTV auf Qwen3-4B fuer AIME24 eine Genauigkeit von 83.33% (Baseline: 81.41%) und auf AIME25 69.32% (Baseline: 68.49%). OTV uebertrifft dabei konsistent sowohl interne Baselines (DeepConf, GenRM) als auch externe Verifier wie AceMath-RM, VersaPRM und Math-Shepherd.
Der groesste praktische Hebel liegt in der Token-Effizienz. Durch Confidence-gesteuerte Fruehbeendigung -- wenn OTV frueh hohe Konfidenz meldet, werden die restlichen Tokens nicht generiert -- lassen sich bis zu 90% der Tokens einsparen. Die Halve@300-Strategie auf DAPO-Qwen-32B erreicht auf AIME25 50.68% Genauigkeit, waehrend VersaPRM bei gleicher Token-Nutzung nur 39.48% schafft.
Methodik
OTV basiert auf drei technischen Saeulen:
Gated LoRA Module: Ein LoRA-Adapter (Rank 16) wird auf Query-, Key- und Value-Projektionen angewendet, aber nur im Verifikationsmodus aktiviert. Im normalen Reasoning-Modus bleibt das Originalmodell unberuehrt. Die Gated-Architektur stellt sicher, dass die Verifikation keine Seiteneffekte auf die Generierung hat.
KV-Cache-Probing: Statt die gesamte Reasoning-Spur neu zu verarbeiten, greift OTV auf den bereits berechneten KV-Cache zu. Das macht die Verifikation zu einer minimalen Zusatzberechnung -- ein einzelner Forward Pass fuer den Verifikationstoken genuegt.
Pseudo-Confidence-Labeling: Da token-granulare Korrektheitslabels nicht verfuegbar sind, leitet OTV dichte Trainingsziele aus der finalen Korrektheit ab. Eine lineare Rampe interpoliert von 0.5 (Unsicherheit am Anfang) zum finalen Ergebnis (korrekt/inkorrekt). Trainiert wird mit MSE-Loss ueber alle Response-Tokens, parallelisiert durch triangulaere Maskierung.
Die Evaluation erfolgt auf GSM8K, AIME24 und AIME25, getestet mit Qwen3-4B-Instruct, Qwen3-8B und DAPO-Qwen-32B. Trainiert wird auf MetaMathQA und DAPO17K mit 8 diversen Reasoning-Spuren pro Trainingsinstanz, 3 Epochen, Lernrate 1e-4, Batch-Groesse 128.
Relevanz fuer die Praxis
Kostenreduktion bei Multi-Sample-Reasoning. Der offensichtlichste Anwendungsfall: Wer heute Best-of-N oder Majority Voting einsetzt, kann durch OTV-gesteuerte Fruehbeendigung die Token-Kosten um eine Groessenordnung senken. Bei 128 parallelen Reasoning-Spuren summiert sich das schnell zu erheblichen Einsparungen bei API-Kosten und Latenz.
Kein separater Verifier noetig. OTV integriert die Verifikation direkt ins Modell. Das vereinfacht die Infrastruktur erheblich -- statt ein Reasoning-Modell und ein separates Reward-Modell zu betreiben, genuegt ein einzelnes Modell mit einem leichtgewichtigen LoRA-Adapter. Der Adapter ist bei Rank 16 minimal in der Groesse.
Einschraenkung: Bisher nur Mathematik. Die Evaluation beschraenkt sich auf mathematische Reasoning-Aufgaben, wo Korrektheit binaer pruefbar ist. Die Autoren schlagen Erweiterungen auf Code-Reasoning und Tool-augmentierte Aufgaben vor, aber empirische Belege dafuer stehen noch aus. Fuer offene Fragestellungen, wo "Korrektheit" nicht eindeutig definiert ist, bleibt der Ansatz vorerst theoretisch.
Verbesserungspotenzial bei den Labels. Das monotone Pseudo-Confidence-Labeling -- von 0.5 linear zum Endergebnis -- ist eine starke Vereinfachung. Reasoning-Spuren enthalten Irrwege, Backtracking und Wendepunkte, die mit diesem Schema nicht abgebildet werden. Hybride Ansaetze mit Self-Consistency-Disagreement oder Step-Boundary-Detection koennten die Verifikationsqualitaet weiter verbessern.