5. April 2026

Alibabas Qwen-Team hat mit FIPO (Future-KL Influenced Policy Optimization) einen neuen Trainingsalgorithmus fuer Reasoning-Modelle vorgestellt, der ein grundlegendes Problem des Reinforcement Learning adressiert: die gleichmaessige Verteilung von Rewards ueber alle Tokens.

Das Problem

Herkoemmliche RL-Ansaetze wie GRPO behandeln jeden Token in einer Reasoning-Kette gleich -- unabhaengig davon, ob er ein entscheidender Denkschritt oder ein Fuellelement ist. Das fuehrt zu einem Plateau-Effekt: Reasoning-Ketten wachsen bis zu einer bestimmten Laenge und stagnieren dann.

FIPOs Loesung

FIPO berechnet fuer jeden Schritt, wie stark er die Wahrscheinlichkeitsverteilung nachfolgender Tokens verschiebt. Schritte die den weiteren Verlauf der Argumentation massgeblich beeinflussen, erhalten hoeheres Gewicht. Das Modell lernt dadurch, an entscheidenden Stellen gruendlicher zu denken.

Ergebnisse

Einschraenkungen

Die Tests beschraenken sich bisher auf mathematische Probleme eines einzelnen Datensatzes. Ob FIPO auf Code, Logik oder andere Domaenen generalisiert, ist offen. Das Trainings-System soll Open Source werden.

Relevanz

Fuer die Praxis ist FIPO vor allem als Signal relevant: Die naechste Generation von Reasoning-Modellen wird laenger und differenzierter denken, nicht einfach mehr Token generieren. Wer AI-Agenten fuer komplexe Aufgaben einsetzt, kann erwarten, dass zukuenftige Modelle bei mehrstufigen Problemen zuverlaessiger werden -- insbesondere bei Aufgaben die Selbstverifikation erfordern.

Quellen

Nach oben