2. April 2026

Reasoning Theater -- Wenn LLMs bei Chain-of-Thought nur so tun als wuerden sie denken

Chain-of-Thought-Reasoning gilt als Schluessel zu besserer LLM-Performance: Das Modell denkt Schritt fuer Schritt nach und kommt so zu praeziseren Antworten. Boppana et al. zeigen in dieser Studie, dass dieses Bild zu einfach ist. Bei einfachen Wissensfragen -- dem Grossteil typischer Benchmarks -- wissen Modelle wie DeepSeek-R1 die Antwort bereits nach wenigen Tokens, produzieren aber trotzdem ausfuehrliche Denkspuren. Die Autoren nennen dieses Phaenomen "Reasoning Theater": Das Modell fuehrt Reasoning auf, ohne es tatsaechlich zu betreiben.

Kernaussagen

Die zentrale Erkenntnis: Reasoning-Modelle unterscheiden sich fundamental in ihrer Denktiefe je nach Aufgabentyp. Bei Recall-Fragen aus MMLU (57 Domaenen, 5.280 Fragen) ist die Antwort bereits in den fruehesten Aktivierungen des Modells decodierbar -- lange bevor die Denkspur abgeschlossen ist. Bei schwierigen Multihop-Fragen aus GPQA-Diamond (198 Fragen auf Graduate-Niveau) zeigt sich dagegen echtes Reasoning mit authentischen Unsicherheitsphasen.

Die Messgroesse dafuer ist die "Performativity Rate". DeepSeek-R1 erreicht auf MMLU einen Wert von 0.417 -- bei fast der Haelfte der Fragen ist die Denkspur performativ. Auf GPQA-Diamond liegt der Wert bei nur 0.012, was auf genuines Reasoning hindeutet. GPT-OSS 120B zeigt ein aehnliches Muster (MMLU: 0.435, GPQA-D: 0.227), wobei es auch bei schwierigen Fragen oefter performativ agiert.

Aufschlussreich ist das Verhalten bei Wendepunkten in der Denkspur -- Momente des Zurueckruderns, neuer Einsichten oder Ueberlegungswechsel. Diese Inflection Points treten bei unsicheren Antworten doppelt so haeufig auf (0.045 pro Schritt vs. 0.020 bei hoher Konfidenz) und korrelieren mit echten Belief-Shifts im Modell. Das bedeutet: Wenn das Modell tatsaechlich unsicher ist, denkt es auch tatsaechlich nach.

Methodik

Die Studie kombiniert drei komplementaere Analysemethoden:

Attention Probes: Leichtgewichtige lineare Klassifikatoren, trainiert auf Residual-Stream-Aktivierungen mit Attention-gewichtetem Pooling. Diese erreichen 87.98% Testgenauigkeit bei der Vorhersage der finalen Antwort -- bereits zu Beginn der Denkspur. Lineare Probes ohne Attention schaffen nur 31.85%.

Forced Answering: Das Modell wird mitten im Reasoning unterbrochen und zur sofortigen Antwort gezwungen. Bei MMLU-Fragen liefert es bereits nach wenigen Tokens korrekte Antworten, bei GPQA-Diamond verbessert sich die Genauigkeit erst mit fortschreitendem Reasoning.

CoT-Monitor: Ein externer LLM (Gemini-2.5-Flash) analysiert partielle Denkspuren und identifiziert, ob das Modell sich bereits festgelegt hat. Entscheidend: Der Monitor erkennt die Festlegung deutlich spaeter als der interne Probe -- das Modell weiss die Antwort, schreibt aber weiter.

Getestet wurden DeepSeek-R1 671B, GPT-OSS 120B und verschiedene destillierte DeepSeek-R1-Varianten (1.5B bis 32B). Groessere Modelle zeigen frueheren Probe-Accuracy-Anstieg, was darauf hindeutet, dass In-Weight-Knowledge bei grossen Modellen dominiert.

Relevanz fuer die Praxis

Token-Effizienz durch Probe-gesteuerte Fruehbeendigung. Der direkteste praktische Nutzen: Durch Confidence-basiertes Early Termination lassen sich auf MMLU bis zu 80% der Tokens einsparen, bei nur 3% Genauigkeitsverlust. Auf GPQA-Diamond sind es immerhin 30%. Fuer Anwendungen mit hohem Durchsatz und vorhersagbarem Aufgabentyp ist das ein erheblicher Kostenfaktor.

Reasoning-Laenge ist kein zuverlaessiger Qualitaetsindikator. Wer die Laenge der Denkspur als Proxy fuer Reasoning-Tiefe verwendet -- etwa um zu entscheiden, ob ein Problem "schwierig" war -- liegt bei fast der Haelfte der Faelle falsch. Das Modell produziert lange Spuren auch dann, wenn es die Antwort sofort kennt.

Implikationen fuer RLHF-Training. Die Autoren argumentieren, dass Reasoning-Modelle durch Outcome-basiertes Training lernen, Belohnung zu maximieren statt kooperativ zu kommunizieren. Sie verletzen systematisch Gricesche Kommunikationsmaximen -- insbesondere die Maxime der Quantitaet (nicht mehr Information als noetig). Das ist kein Bug im klassischen Sinn, sondern ein emergentes Verhalten der Trainingsoptimierung.

Unterscheidung zwischen Recall und echtem Reasoning wird zentral. Fuer die Evaluation von Reasoning-Modellen bedeutet der Befund, dass Benchmarks mit hohem Recall-Anteil die tatsaechliche Reasoning-Faehigkeit ueberschaetzen. GPQA-Diamond-artige Benchmarks, die echtes Multihop-Reasoning erfordern, sind die zuverlaessigeren Indikatoren.

Quellen

Nach oben