10. April 2026

Hanyang Wang und Mingxuan Zhu haben am 9. April 2026 auf ArXiv (2604.06613) das Paper "The Detection-Extraction Gap: Models Know the Answer Before They Can Say It" veröffentlicht. Die Studie untersucht, warum moderne Reasoning-Modelle wie DeepSeek-R1 oder Qwen im Thinking-Mode lange Chain-of-Thought-Traces produzieren, obwohl die Antwort intern offenbar schon viel früher feststeht. Zentrales Ergebnis: Zwischen 52 und 88 Prozent aller CoT-Tokens werden erzeugt, nachdem die richtige Antwort bereits aus einem Teil-Präfix rekonstruierbar ist. Gleichzeitig scheitert eine simple Aufforderung "Antwort jetzt" an 42 Prozent genau dieser Fälle. Das Modell kennt die Lösung -- nur lässt sie sich nicht extrahieren.

Kernaussagen

Methodik

Die Untersuchung erfolgt rein black-box, also ohne Zugriff auf interne Aktivierungen oder Logits einzelner Layer. Gemessen wird über fünf Modellkonfigurationen aus zwei Familien auf drei Benchmarks (u.a. MATH, zusätzlich HumanEval im Appendix).

Zentrale Protokolle:

Die Lücke ist robust gegenüber Task-Typ (Mathe, Code, Multi-Choice), Modellfamilie und Trace-Länge. Ein "Selection Effect" wird explizit ausgeschlossen, d.h. das Phänomen beruht nicht darauf, dass nur leichte Probleme früh committed werden.

Relevanz für die Praxis

Quellen

Nach oben