RLHF und Alignment -- Wie Sprachmodelle lernen, hilfreich zu sein

8. April 2026

Ein vortrainiertes Sprachmodell ist eine Enzyklopaedie, die beliebige Texte vervollstaendigen kann. Es weiss, wie Shakespeare klingt, wie ein Kochrezept aussieht und wie man einen Stackoverflow-Post formuliert. Aber es weiss nicht, dass es auf eine Frage antworten soll, statt einfach den naechsten plausiblen Absatz zu generieren.

Intuition

Die zentrale Luecke: Next-Token-Prediction ist nicht dasselbe wie Instruktionen befolgen. Ein Rohmodell, das auf "Erklaere mir Quantenmechanik" trainiert wurde, koennte mit einer Wikipedia-Fortsetzung antworten, mit einer Folgefrage, oder mit einem voellig anderen Absatz -- alles statistisch plausibel. Alignment schliesst diese Luecke, indem es dem Modell menschliche Praeferenzen beibringt.

Die Trainingspipeline moderner Sprachmodelle hat drei Phasen:

Pretraining -- Next-Token-Prediction auf grossen Textkorpora
Supervised Fine-Tuning (SFT) -- Training auf kuratierten Instruktions-Antwort-Paaren
Praeferenzoptimierung -- RLHF, DPO oder verwandte Methoden

Jede Phase baut auf der vorherigen auf. Die dritte Phase ist entscheidend: Sie lehrt das Modell nicht nur, was gute Antworten sind, sondern auch, was schlechte Antworten sind.

Technische Details

Phase 1: Supervised Fine-Tuning (SFT)

Nach dem Pretraining wird das Modell auf kuratierten Datensaetzen feingetunt, die aus (Instruktion, Antwort)-Paaren bestehen. Typische Quellen sind menschlich geschriebene Beispieldialoge oder von staerkeren Modellen generierte Antworten.

SFT bringt dem Modell das Format bei: Es lernt, in einem Gespraech zu antworten statt Text fortzusetzen. Das Modell uebernimmt den Stil, die Struktur und die grundsaetzliche Hilfbereitschaft der Trainingsdaten.

Das Problem: SFT zeigt dem Modell nur positive Beispiele. Es lernt "so sieht eine gute Antwort aus", aber nicht "so sieht eine schlechte Antwort aus und warum ist sie schlecht". Das Modell hat kein Signal dafuer, welche von zwei akzeptablen Antworten besser ist, oder warum eine bestimmte Formulierung problematisch waere.

Phase 2: Reward Model Training

Um Praeferenzen zu lernen, braucht das System ein Bewertungssignal. Dafuer wird ein separates Reward Model trainiert.

Der Prozess: Menschliche Annotatoren sehen einen Prompt und mehrere Modellantworten. Sie ranken diese Antworten von best nach schlechteste. Aus diesen Rankings lernt das Reward Model eine Scoring-Funktion.

Das mathematische Fundament ist das Bradley-Terry-Modell fuer paarweise Vergleiche. Die Wahrscheinlichkeit, dass Antwort y_1 gegenueber y_2 bevorzugt wird, ist:

P(y_1 > y_2) = sigma(r(y_1) - r(y_2))

Dabei ist r(x) der Score des Reward Models und sigma die Sigmoid-Funktion. Die Intuition: Je groesser der Score-Unterschied, desto eindeutiger die Praeferenz. Das Reward Model wird mit Cross-Entropy-Loss auf den menschlichen Vergleichsdaten trainiert.

Ein fundamentales Problem ist die Unvollkommenheit des Reward Models. Es approximiert menschliche Praeferenzen, bildet sie aber nicht perfekt ab. Das fuehrt zu Reward Hacking -- das Modell findet Outputs, die hohe Scores bekommen, ohne tatsaechlich besser zu sein.

Phase 3: RLHF mit PPO

In der klassischen RLHF-Pipeline generiert das Sprachmodell (die Policy) Antworten, das Reward Model bewertet sie, und ein RL-Algorithmus aktualisiert die Policy, um den Reward zu maximieren.

Der Standard-Algorithmus ist PPO (Proximal Policy Optimization). Die Zielfunktion:

maximize  E[r(y)] - beta * KL(pi || pi_ref)

Der erste Term maximiert den erwarteten Reward. Der zweite Term ist entscheidend: Die KL-Divergenz zwischen der aktuellen Policy pi und der Referenz-Policy pi_ref (dem SFT-Modell) bestraft Abweichungen. Ohne diesen Term wuerde das Modell in Regionen des Outputraums driften, in denen das Reward Model unzuverlaessig ist -- klassisches Reward Hacking.

PPO wird verwendet, weil es stabil mit nicht-differenzierbaren Reward-Signalen umgehen kann. Der Reward kommt von einem separaten Modell, nicht von einem analytisch ableitbaren Loss.

Der Preis ist Komplexitaet: Waehrend des Trainings muessen vier Modelle im Speicher gehalten werden -- die aktuelle Policy, die Referenz-Policy, das Reward Model und das Value Model (fuer die Baseline-Schaetzung in PPO). Das macht RLHF mit PPO teuer und instabil. InstructGPT (OpenAI, 2022) hat diesen Ansatz populaer gemacht, aber die praktischen Schwierigkeiten sind erheblich.

DPO: Direct Preference Optimization

Rafailov et al. (2023) haben gezeigt, dass man das Reward Model analytisch eliminieren kann. Die zentrale Einsicht: Unter bestimmten Annahmen laesst sich die optimale Policy direkt aus den Praeferenzdaten ableiten, ohne den Umweg ueber ein explizites Reward Model und RL.

DPO reparametrisiert die Reward-Funktion durch die Policy selbst. Der Loss:

L_DPO = -log sigma(beta * (log pi(y_w|x)/pi_ref(y_w|x) - log pi(y_l|x)/pi_ref(y_l|x)))

Dabei ist y_w die bevorzugte und y_l die abgelehnte Antwort. Die Intuition: Der Loss drueckt die Wahrscheinlichkeit der bevorzugten Antwort nach oben und die der abgelehnten nach unten, relativ zur Referenz-Policy.

Die praktischen Vorteile sind erheblich:

Nur 2 Modelle statt 4 (Policy + Referenz, kein Reward Model, kein Value Model)
Stabiles Training -- Standard-Supervised-Learning-Loop statt RL
Einfache Implementierung -- wenige Zeilen Code auf Basis eines Standard-Trainers

Llama 3, Zephyr und zahlreiche andere Open-Source-Modelle nutzen DPO oder Varianten davon. Die Einfachheit von DPO ist ein wesentlicher Grund dafuer, dass Open-Source-Modelle bei der Alignment-Qualitaet aufgeholt haben.

Der Trade-off: DPO ist moeglicherweise weniger ausdrucksstark als vollstaendiges RL, weil es auf offline-Praeferenzdaten operiert statt online Feedback zu sammeln. Varianten wie IPO (Identity Preference Optimization) und KTO (Kahneman-Tversky Optimization) adressieren spezifische Schwaechen.

RLAIF: AI Feedback statt menschlicher Annotatoren

Anthropics Constitutional AI ersetzt menschliche Annotatoren teilweise durch ein starkes Sprachmodell. Das Modell kritisiert seine eigenen Outputs anhand einer Verfassung (einem Regelwerk), ueberarbeitet sie, und die ueberarbeiteten Versionen dienen als Praeferenzdaten.

Der Vorteil ist Skalierbarkeit: Menschliche Annotation ist teuer und langsam. AI-Feedback kann in beliebigem Umfang generiert werden. Das Risiko: Verzerrungen des Richtermodells werden verstaerkt statt korrigiert. Claudes Sicherheitsverhalten basiert massgeblich auf diesem Ansatz.

Reinforcement Fine-Tuning (RFT)

Eine juengere Entwicklung: Reinforcement Fine-Tuning nutzt RL mit domaenenspezifischen Reward-Signalen. Amazon Bedrock und OpenAI bieten dies als Produkt an.

Der Ansatz funktioniert besonders gut mit verifizierbaren Rewards -- mathematische Korrektheit, bestandene Unit-Tests, strukturelle Validierung. Hier ist kein gelerntes Reward Model noetig, weil die Bewertung deterministisch ist. Das umgeht das Reward-Hacking-Problem vollstaendig.

Fuer Code-Generierung oder mathematische Aufgaben ist RFT damit oft effektiver als klassisches RLHF: Das Signal ist praezise, skalierbar und nicht von der Qualitaet menschlicher Annotatoren abhaengig.

Praxis-Relevanz

RLHF und seine Nachfolger sind der Grund, warum Sprachmodelle heute als Assistenten funktionieren. Wenn Claude eine schaedliche Anfrage ablehnt, aber bei einer Coding-Frage hilft, ist das Ergebnis von Alignment-Training. Wenn ein Modell uebertrieben zustimmt (Sycophancy), ist das ein Symptom von Reward Hacking -- das Modell hat gelernt, dass Zustimmung hoehere Reward-Scores bekommt.

Fuer Entwickler, die eigene Modelle anpassen wollen: DPO ist der pragmatische Einstieg. Die Implementierung in Hugging Face TRL ist direkt nutzbar. AWS Bedrock Reinforcement Fine-Tuning bietet RFT als Managed Service fuer strukturierte Aufgaben. Wer das volle Bild verstehen will, sollte die PPO-Pipeline zumindest konzeptionell kennen -- sie erklaert, warum DPO entwickelt wurde und welche Kompromisse es eingeht.

Quellen

Nach oben