Die Detection-Extraction-Lücke: Modelle kennen die Antwort, bevor sie sie sagen können

10. April 2026

Hanyang Wang und Mingxuan Zhu haben am 9. April 2026 auf ArXiv (2604.06613) das Paper "The Detection-Extraction Gap: Models Know the Answer Before They Can Say It" veröffentlicht. Die Studie untersucht, warum moderne Reasoning-Modelle wie DeepSeek-R1 oder Qwen im Thinking-Mode lange Chain-of-Thought-Traces produzieren, obwohl die Antwort intern offenbar schon viel früher feststeht. Zentrales Ergebnis: Zwischen 52 und 88 Prozent aller CoT-Tokens werden erzeugt, nachdem die richtige Antwort bereits aus einem Teil-Präfix rekonstruierbar ist. Gleichzeitig scheitert eine simple Aufforderung "Antwort jetzt" an 42 Prozent genau dieser Fälle. Das Modell kennt die Lösung -- nur lässt sie sich nicht extrahieren.

Kernaussagen

Früher Commitment-Punkt: Bereits bei 10 Prozent der Chain-of-Thought kann eine freie Fortsetzung (Free Continuation) die korrekte Antwort rekonstruieren. Die eigentliche Lösung wird also lange vor dem Ende des Reasoning-Traces implizit festgelegt.
Asymmetrie zwischen Detection und Extraction: Free Continuation (Modell generiert ohne Extraktions-Suffix weiter) erkennt die Antwort zuverlässig. Forced Extraction (Präfix plus "Therefore the answer is...") versagt in 42 Prozent genau dieser Fälle, weil das Extraktions-Suffix die Verteilung der Folgetokens verschiebt.
Post-Commitment-Overwriting: Im Thinking-Mode kann längeres Weiterdenken die bereits korrekte Antwort sogar aktiv überschreiben. Kürzer denken ist in manchen Fällen akkurater als länger denken.
BAEE (Black-box Adaptive Early Exit): Die Autoren schlagen ein rein prompt-basiertes Verfahren vor, das per Free Continuation erkennt, wann der Commitment-Punkt erreicht ist, und dort abbricht. Ergebnis: 70--78 Prozent weniger serielle Tokens bei 1--5 Prozentpunkten besserer Genauigkeit. Im Thinking-Mode bis zu 5,8 Prozentpunkte Gewinn. Eine kostenoptimierte Variante kommt mit Median neun API-Calls aus und reduziert Compute um 68--73 Prozent.
Theoretische Einordnung: Die Autoren formalisieren die Lücke über eine Total-Variation-Schranke zwischen der Verteilung freier und erzwungener Fortsetzungen. Das Extraktions-Suffix induziert einen quantifizierbaren Distributions-Shift, der die beobachtete Extraction-Fehlerrate erklärt.

Methodik

Die Untersuchung erfolgt rein black-box, also ohne Zugriff auf interne Aktivierungen oder Logits einzelner Layer. Gemessen wird über fünf Modellkonfigurationen aus zwei Familien auf drei Benchmarks (u.a. MATH, zusätzlich HumanEval im Appendix).

Zentrale Protokolle:

Early Forced Answering (EFA): CoT wird bei k Prozent der Trace-Länge abgeschnitten, ein Extraktions-Suffix angehängt, und das Modell muss sofort antworten. Misst die "Extractability".
Free Continuation: Gleiches Präfix, aber das Modell generiert frei weiter bis zu seinem eigenen Stop-Token. Die finale Antwort wird dann per Regex oder Judge-Modell ausgelesen. Misst die "Detectability".
Answer Token Logprob Trajectory (ATLT): Logprob-Verlauf des später ausgegebenen Antwort-Tokens entlang der CoT, als Diagnose für den Commitment-Zeitpunkt.
BAEE: Adaptives Kriterium, das über Stabilität mehrerer Free Continuations entscheidet, wann abgebrochen werden kann. Kalibrierung erfolgt über einen per-Modell bestimmten Schwellwert.

Die Lücke ist robust gegenüber Task-Typ (Mathe, Code, Multi-Choice), Modellfamilie und Trace-Länge. Ein "Selection Effect" wird explizit ausgeschlossen, d.h. das Phänomen beruht nicht darauf, dass nur leichte Probleme früh committed werden.

Relevanz für die Praxis

Inferenz-Kosten: Reasoning-Modelle verschwenden laut dieser Arbeit bei vielen Aufgaben 50--80 Prozent ihrer Token-Generierung nach dem eigentlichen Lösungs-Commitment. Wer Reasoning-APIs produktiv einsetzt, kann mit Early-Exit-Strategien erhebliche Kosten sparen, ohne Accuracy zu verlieren -- in einigen Konfigurationen sogar mit Gewinn.
Evaluation und Benchmarks: Benchmark-Zahlen für Reasoning-Modelle hängen stark vom Extraktions-Protokoll ab. Wer Forced Extraction benutzt (z.B. strukturierte Judge-Prompts), unterschätzt die Fähigkeiten des Modells systematisch. Free-Continuation-basierte Bewertungen liefern ein anderes Bild.
Decoding-Strategien: Das Paper liefert einen konkreten praktischen Mechanismus für "fast thinking": mehrere parallele freie Fortsetzungen als Konsens-Detektor, statt seriell bis zum selbst gewählten Stop weiterzugenerieren. Das verschiebt Compute von seriell nach parallel.
Grenzen des einfachen Probings: Anders als rein aktivierungsbasierte Probing-Studien zeigt diese Arbeit, dass Wissen über die Antwort bereits auf Ebene der Token-Verteilung der Fortsetzung codiert ist -- kein Aktivierungs-Probing nötig. Das vereinfacht die Anwendung in der Praxis, weil alles mit geschlossenen APIs funktioniert.
Post-Commitment-Overwriting als Warnung: "Think longer" ist kein allgemein gültiger Hebel. Bei Reasoning-Modellen kann zusätzliches Thinking aktiv schaden. Adaptive Stop-Kriterien sind vermutlich wichtiger als längere Budgets.

Quellen

Wang, Hanyang; Zhu, Mingxuan (2026): The Detection-Extraction Gap: Models Know the Answer Before They Can Say It. ArXiv: https://arxiv.org/abs/2604.06613
HTML-Version: https://arxiv.org/html/2604.06613v2
Code-Repository: https://github.com/EdWangLoDaSc/know2say

Nach oben