10. April 2026

On-Policy Distillation: Thinking Machines Lab trainiert Schueler waehrend RL

Kevin Lu und Kollegen bei Thinking Machines Lab (dem Labor um Mira Murati, mit Beteiligung unter anderem von John Schulman und Lilian Weng) haben Ende Oktober 2025 den Beitrag "On-Policy Distillation" veroeffentlicht. Der Post ist weniger klassisches arXiv-Paper als technischer Engineering-Report mit offen gelegtem Code in ihrem Tinker-Cookbook. Er beschreibt, wie sich die Vorteile von Reinforcement Learning (RL) und klassischer Distillation kombinieren lassen, indem ein staerkerer Lehrer jeden einzelnen Token in den eigenen Rollouts des Schuelermodells bewertet, statt offline gesammelte Lehrer-Trajektorien imitieren zu lassen.

Kernaussagen

On-Policy Distillation sampelt Trajektorien vom Schueler und nutzt einen Lehrer nur zur Pro-Token-Bewertung ueber die Reverse KL-Divergenz. Damit bekommt der Schueler die dichte Feedback-Signalqualitaet von SFT, lernt aber in genau den Zustaenden, die er spaeter selbst erzeugt.
Auf Qwen3-8B-Base mit Qwen3-32B als Lehrer erreicht die Methode laut Qwen3 Technical Report (Table 21) 74,4 Prozent auf AIME'24 bei 1.800 GPU-Stunden, gegenueber 67,6 Prozent bei 17.920 GPU-Stunden fuer vergleichbares RL. Thinking Machines repliziert das Ergebnis und zeigt im Vergleich 9x bis 30x weniger Trainings-FLOPs gegenueber Off-Policy-Distillation, je nachdem ob die Lehrer-Sampling-Kosten mitgerechnet werden.
Ein direkter Kopf-an-Kopf-Versuch (gleicher Startpunkt, gleicher LoRA-Rang 128, DeepMath): Distillation erreicht das Leistungsniveau des RL-Lehrers in etwa 7x bis 10x weniger Gradient Steps, was rund 50x bis 100x Compute-Effizienz entspricht.
Als zweiter Use Case wird Personalisierung gezeigt: Nach einem Mid-Training auf firmeninternen Dokumenten, das Qwen3-8B seine Instruction-Following-Faehigkeiten (IF-eval) von 85 auf 45 Prozent zerstoert, laesst sich durch On-Policy Distillation gegen die aeltere Version desselben Modells als Lehrer die IF-eval-Performance auf 83 Prozent zurueckholen, ohne den neu gelernten Wissensstand zu verlieren.

Methodik

Kern ist die Wahl der Loss-Funktion: per-Token Reverse KL zwischen Schueler- und Lehrerverteilung, bedingt auf die gemeinsame bisherige Trajektorie. Der Schueler erhaelt als Advantage-Signal schlicht die negative Reverse KL pro Token. Anders als in klassischer Distillation (wo der Schueler Kontexte sieht, die der Lehrer erzeugt hat) laeuft das Sampling durchgehend On-Policy: Die Rollouts kommen vom Schueler, der Lehrer wird nur per compute_logprobs fuer einen einzelnen Forward-Pass angefragt. Es braucht weder ein separates Reward-Modell noch fertige Rollouts, Trainings koennen auf kuerzeren oder abgeschnittenen Sequenzen laufen.

Die Implementierung ist auffaellig duenn: ein One-Line-Swap auf Basis eines bestehenden RL-Trainingsskripts mit KL-Regularisierung, bei dem der Regularizer durch den Lehrer ersetzt wird. Gesampelt wird wie in klassischem RL, danach werden die Lehrer-Logprobs abgefragt, reverse_kl = sampled_logprobs - teacher_logprobs gerechnet, und das als Advantage in die Importance-Sampling-Loss gegeben.

Konzeptionell verbindet der Ansatz Ideen aus DAGGER (iteratives SFT auf schuelerbesuchten States), Process Reward Modeling (Scoring jeden Chain-of-Thought-Schritts) und aelterer On-Policy-Distillation-Arbeit von Agarwal et al. 2023 und Gu et al. 2023. Neu gegenueber Qwen3s eigener Anwendung ist vor allem die saubere Formalisierung als Reverse-KL-Rewrite eines RL-Loops und der Nachweis, dass derselbe Trick bei Continual Learning hilft, wenn der Lehrer einfach ein frueherer Checkpoint des Schuelers ist. Letzteres ist die eigentliche konzeptuelle Pointe: Jedes Instruction-Tuned-Modell kann als Reward-Modell dienen, sofern man an seine Log-Probabilities kommt.

Relevanz fuer die Praxis

Fuer Entwickler, die kleine domaenenspezifische Modelle oder Agenten trainieren wollen, sind die praktischen Implikationen ungewoehnlich konkret. Erstens: Wenn ein vertrauenswuerdiger Lehrer existiert (egal ob grosses Open-Weight-Modell oder fruehere Version des eigenen Schuelers), ist RL auf dichte Rewards jetzt ein Einzeiler. Die Batch-Sizes koennen klein sein, die Kontextlaenge beim Training darf kuerzer sein als bei der Inferenz, und eine SFT-Datensammlung ist optional -- Prompts reichen. Das macht es realistisch, auf einem Cluster in der Groessenordnung zehn bis hundert GPUs dedizierte Assistenten zu post-trainen, wo vorher RL-Pipelines praktisch nur fuer Labs mit eigener Infrastruktur umsetzbar waren.

Zweitens loest die Methode einen unangenehmen Alltagsschmerz beim Continual Learning von Agenten: Wer ein instruction-tuned Modell auf proprietaere Dokumente feintuned, verliert regelmaessig Tool-Use-, Format- und Instruction-Following-Verhalten, und klassische Mitigationen (Background-Data-Mix, LoRA) helfen nur teilweise. Hier zeigt der Post, dass man die kaputte Faehigkeit billig reaktivieren kann, indem man den Pre-Feintune-Checkpoint als Lehrer fuer eine kurze Destillations-Phase nimmt. Das legt ein Workflow-Muster nahe: abwechselnd Wissens-Update per SFT und Verhaltens-Reactivation per On-Policy Distillation, ohne dass man RLHF-Pipelines oder Reward-Modelle selbst betreibt.

Einschraenkungen: Der starke Compute-Gewinn setzt voraus, dass die Lehrerverteilung im Support des Schuelers liegt -- bei wirklich neuem Vokabular oder Domainwissen braucht es vorab noch einen SFT-Midtrain. Reverse KL ist mode-seeking, was erwuenscht ist, aber auch heisst, dass der Schueler stilistisch stark auf den Lehrer kollabieren kann. Und praktisch: Die verwendete compute_logprobs-Schnittstelle existiert nicht bei geschlossenen API-Modellen wie GPT oder Claude, die Methode funktioniert also nur mit Open-Weight-Lehrern oder Modellen mit Logprob-Export. Wer sauber post-trainen will, braucht immer noch eine Trainings-API wie Tinker oder eigene Infrastruktur.

Quellen

Nach oben