2. April 2026

Reasoning Shift -- Wie Kontext das Reasoning von LLMs still und leise verkuerzt

Gleb Rodionov untersucht in diesem Paper einen subtilen Effekt, der fuer jeden relevant ist, der LLMs in agentic Workflows einsetzt: Reasoning-Modelle verkuerzen ihre Denkspuren um bis zu 50%, wenn dasselbe Problem in einem groesseren Kontext eingebettet ist -- etwa in Multi-Turn-Konversationen oder als Teil einer groesseren Aufgabenstruktur. Bei einfachen Problemen bleibt die Leistung stabil, bei schwierigen Aufgaben fuehrt die Verkuerzung zu messbaren Qualitaetseinbussen.

Kernaussagen

Der zentrale Befund ist alarmierend einfach: Praesentiert man einem Reasoning-Modell ein Problem isoliert, produziert es ausfuehrliche Denkspuren mit Selbstverifikation und Unsicherheitsmanagement. Bettet man dasselbe Problem in einen groesseren Kontext ein -- irrelevante Informationen, vorherige Konversationsteilnehmer, eingebettete Teilaufgaben -- verkuerzt sich die Denkspur dramatisch. Das Modell ueberspringt Pruefschritte, reduziert Double-Checking und kommt schneller zu einer Antwort.

Drei Kontextbedingungen wurden getestet: Probleme mit irrelevantem Kontextmaterial, Multi-Turn-Konversationen mit separaten Tasks, und Probleme eingebettet in groessere Aufgabenstrukturen. In allen drei Faellen tritt der Effekt auf.

Entscheidend ist die asymmetrische Wirkung: Bei einfachen Problemen, die kein extensives Reasoning erfordern, bleibt die Korrektheit erhalten. Bei schwierigen Problemen, die gerade von ausfuehrlichem Reasoning profitieren, fuehrt die Verkuerzung zu Leistungsabfall. Das Modell investiert weniger Rechenaufwand genau dort, wo er am meisten gebraucht wird.

Methodik

Die Studie testet Reasoning-Modelle mit Test-Time-Scaling-Faehigkeiten unter kontrollierten Bedingungen. Dieselben Probleme werden einmal isoliert und einmal unter verschiedenen Kontextbedingungen praesentiert. Gemessen werden die Laenge der Reasoning-Traces, die Haeufigkeit von Selbstverifikationsschritten und die Loesungsgenauigkeit. Der Fokus liegt auf dem Vergleich der Reasoning-Spuren -- nicht nur der Endergebnisse -- um den Mechanismus hinter dem Leistungsabfall zu verstehen.

Relevanz fuer die Praxis

Fuer Agentic Engineers hat dieses Paper unmittelbare Konsequenzen:

Multi-Turn-Agenten sind anfaellig fuer Reasoning-Degradation. Jeder Agent, der in einem laengeren Konversationsverlauf arbeitet -- und das tun fast alle in der Praxis -- ist potenziell von diesem Effekt betroffen. Je laenger die Konversation, desto kuerzer das Reasoning bei neuen Teilaufgaben. Das erklaert moeglicherweise, warum Agenten in spaeten Schritten komplexer Workflows haeufiger Fehler machen.

Kontext-Management wird zur Qualitaetsmassnahme. Der Befund legt nahe, dass das gezielte Beschneiden des Kontexts vor schwierigen Reasoning-Schritten die Qualitaet verbessern kann. Statt den gesamten Konversationsverlauf mitzuschleppen, koennte es sinnvoll sein, fuer kritische Entscheidungen einen reduzierten, fokussierten Kontext zu uebergeben -- quasi ein "Clean-Slate-Reasoning" fuer schwierige Teilaufgaben.

Benchmarks ueberschaetzen die Praxis-Performance. Die meisten Benchmarks testen Probleme isoliert -- genau die Bedingung, unter der Reasoning-Modelle am besten abschneiden. In realen Agenten-Workflows, wo Probleme immer in einen groesseren Kontext eingebettet sind, ist die tatsaechliche Reasoning-Qualitaet systematisch schlechter als die Benchmark-Ergebnisse suggerieren.

Quellen

Nach oben