Alibabas Qwen-Team hat mit FIPO (Future-KL Influenced Policy Optimization) einen neuen Trainingsalgorithmus fuer Reasoning-Modelle vorgestellt, der ein grundlegendes Problem des Reinforcement Learning adressiert: die gleichmaessige Verteilung von Rewards ueber alle Tokens.
Das Problem
Herkoemmliche RL-Ansaetze wie GRPO behandeln jeden Token in einer Reasoning-Kette gleich -- unabhaengig davon, ob er ein entscheidender Denkschritt oder ein Fuellelement ist. Das fuehrt zu einem Plateau-Effekt: Reasoning-Ketten wachsen bis zu einer bestimmten Laenge und stagnieren dann.
FIPOs Loesung
FIPO berechnet fuer jeden Schritt, wie stark er die Wahrscheinlichkeitsverteilung nachfolgender Tokens verschiebt. Schritte die den weiteren Verlauf der Argumentation massgeblich beeinflussen, erhalten hoeheres Gewicht. Das Modell lernt dadurch, an entscheidenden Stellen gruendlicher zu denken.
Ergebnisse
- Antwortlaenge: Von ~4.000 auf ueber 10.000 Tokens
- AIME 2024: 50% auf 56-58% Genauigkeit (uebertrifft o1-mini mit 56%)
- AIME 2025: 38% auf 43%
- Emergentes Verhalten: Modelle begannen spontan, sich selbst zu ueberpruefen und Antworten ueber mehrere Wege zu verifizieren -- ohne dass dies explizit trainiert wurde
Einschraenkungen
Die Tests beschraenken sich bisher auf mathematische Probleme eines einzelnen Datensatzes. Ob FIPO auf Code, Logik oder andere Domaenen generalisiert, ist offen. Das Trainings-System soll Open Source werden.
Relevanz
Fuer die Praxis ist FIPO vor allem als Signal relevant: Die naechste Generation von Reasoning-Modellen wird laenger und differenzierter denken, nicht einfach mehr Token generieren. Wer AI-Agenten fuer komplexe Aufgaben einsetzt, kann erwarten, dass zukuenftige Modelle bei mehrstufigen Problemen zuverlaessiger werden -- insbesondere bei Aufgaben die Selbstverifikation erfordern.