Hanyang Wang und Mingxuan Zhu haben am 9. April 2026 auf ArXiv (2604.06613) das Paper "The Detection-Extraction Gap: Models Know the Answer Before They Can Say It" veröffentlicht. Die Studie untersucht, warum moderne Reasoning-Modelle wie DeepSeek-R1 oder Qwen im Thinking-Mode lange Chain-of-Thought-Traces produzieren, obwohl die Antwort intern offenbar schon viel früher feststeht. Zentrales Ergebnis: Zwischen 52 und 88 Prozent aller CoT-Tokens werden erzeugt, nachdem die richtige Antwort bereits aus einem Teil-Präfix rekonstruierbar ist. Gleichzeitig scheitert eine simple Aufforderung "Antwort jetzt" an 42 Prozent genau dieser Fälle. Das Modell kennt die Lösung -- nur lässt sie sich nicht extrahieren.
Kernaussagen
- Früher Commitment-Punkt: Bereits bei 10 Prozent der Chain-of-Thought kann eine freie Fortsetzung (Free Continuation) die korrekte Antwort rekonstruieren. Die eigentliche Lösung wird also lange vor dem Ende des Reasoning-Traces implizit festgelegt.
- Asymmetrie zwischen Detection und Extraction: Free Continuation (Modell generiert ohne Extraktions-Suffix weiter) erkennt die Antwort zuverlässig. Forced Extraction (Präfix plus "Therefore the answer is...") versagt in 42 Prozent genau dieser Fälle, weil das Extraktions-Suffix die Verteilung der Folgetokens verschiebt.
- Post-Commitment-Overwriting: Im Thinking-Mode kann längeres Weiterdenken die bereits korrekte Antwort sogar aktiv überschreiben. Kürzer denken ist in manchen Fällen akkurater als länger denken.
- BAEE (Black-box Adaptive Early Exit): Die Autoren schlagen ein rein prompt-basiertes Verfahren vor, das per Free Continuation erkennt, wann der Commitment-Punkt erreicht ist, und dort abbricht. Ergebnis: 70--78 Prozent weniger serielle Tokens bei 1--5 Prozentpunkten besserer Genauigkeit. Im Thinking-Mode bis zu 5,8 Prozentpunkte Gewinn. Eine kostenoptimierte Variante kommt mit Median neun API-Calls aus und reduziert Compute um 68--73 Prozent.
- Theoretische Einordnung: Die Autoren formalisieren die Lücke über eine Total-Variation-Schranke zwischen der Verteilung freier und erzwungener Fortsetzungen. Das Extraktions-Suffix induziert einen quantifizierbaren Distributions-Shift, der die beobachtete Extraction-Fehlerrate erklärt.
Methodik
Die Untersuchung erfolgt rein black-box, also ohne Zugriff auf interne Aktivierungen oder Logits einzelner Layer. Gemessen wird über fünf Modellkonfigurationen aus zwei Familien auf drei Benchmarks (u.a. MATH, zusätzlich HumanEval im Appendix).
Zentrale Protokolle:
- Early Forced Answering (EFA): CoT wird bei k Prozent der Trace-Länge abgeschnitten, ein Extraktions-Suffix angehängt, und das Modell muss sofort antworten. Misst die "Extractability".
- Free Continuation: Gleiches Präfix, aber das Modell generiert frei weiter bis zu seinem eigenen Stop-Token. Die finale Antwort wird dann per Regex oder Judge-Modell ausgelesen. Misst die "Detectability".
- Answer Token Logprob Trajectory (ATLT): Logprob-Verlauf des später ausgegebenen Antwort-Tokens entlang der CoT, als Diagnose für den Commitment-Zeitpunkt.
- BAEE: Adaptives Kriterium, das über Stabilität mehrerer Free Continuations entscheidet, wann abgebrochen werden kann. Kalibrierung erfolgt über einen per-Modell bestimmten Schwellwert.
Die Lücke ist robust gegenüber Task-Typ (Mathe, Code, Multi-Choice), Modellfamilie und Trace-Länge. Ein "Selection Effect" wird explizit ausgeschlossen, d.h. das Phänomen beruht nicht darauf, dass nur leichte Probleme früh committed werden.
Relevanz für die Praxis
- Inferenz-Kosten: Reasoning-Modelle verschwenden laut dieser Arbeit bei vielen Aufgaben 50--80 Prozent ihrer Token-Generierung nach dem eigentlichen Lösungs-Commitment. Wer Reasoning-APIs produktiv einsetzt, kann mit Early-Exit-Strategien erhebliche Kosten sparen, ohne Accuracy zu verlieren -- in einigen Konfigurationen sogar mit Gewinn.
- Evaluation und Benchmarks: Benchmark-Zahlen für Reasoning-Modelle hängen stark vom Extraktions-Protokoll ab. Wer Forced Extraction benutzt (z.B. strukturierte Judge-Prompts), unterschätzt die Fähigkeiten des Modells systematisch. Free-Continuation-basierte Bewertungen liefern ein anderes Bild.
- Decoding-Strategien: Das Paper liefert einen konkreten praktischen Mechanismus für "fast thinking": mehrere parallele freie Fortsetzungen als Konsens-Detektor, statt seriell bis zum selbst gewählten Stop weiterzugenerieren. Das verschiebt Compute von seriell nach parallel.
- Grenzen des einfachen Probings: Anders als rein aktivierungsbasierte Probing-Studien zeigt diese Arbeit, dass Wissen über die Antwort bereits auf Ebene der Token-Verteilung der Fortsetzung codiert ist -- kein Aktivierungs-Probing nötig. Das vereinfacht die Anwendung in der Praxis, weil alles mit geschlossenen APIs funktioniert.
- Post-Commitment-Overwriting als Warnung: "Think longer" ist kein allgemein gültiger Hebel. Bei Reasoning-Modellen kann zusätzliches Thinking aktiv schaden. Adaptive Stop-Kriterien sind vermutlich wichtiger als längere Budgets.
Quellen
- Wang, Hanyang; Zhu, Mingxuan (2026): The Detection-Extraction Gap: Models Know the Answer Before They Can Say It. ArXiv: https://arxiv.org/abs/2604.06613
- HTML-Version: https://arxiv.org/html/2604.06613v2
- Code-Repository: https://github.com/EdWangLoDaSc/know2say