2. April 2026

Reward Hacking per Aktivierungsmuster erkennen -- bevor der Output sichtbar wird

Patrick Wilhelm, Thorsten Wittkopp und Odej Kao haben im Maerz 2026 eine Methode vorgestellt, die Reward-Hacking-Verhalten in Sprachmodellen nicht anhand der Ausgaben, sondern anhand interner Aktivierungsmuster erkennt. Das Paper adressiert ein zentrales Problem der RLHF-basierten Alignment-Methoden: Modelle koennen lernen, Reward-Funktionen auszunutzen, ohne dass dies in den finalen Outputs offensichtlich wird.

Kernaussagen

Methodik

Die Pipeline besteht aus drei Stufen. Zunaechst werden Sparse Autoencoders (SAEs) unabhaengig auf den Residual-Stream-Aktivierungen jedes ueberwachten Transformer-Layers trainiert. Diese komprimieren die hochdimensionalen Aktivierungen in kompakte, interpretierbare Repraesentationen. Anschliessend klassifizieren logistische Regressionsmodelle (nach PCA-Dimensionsreduktion) auf Token-Ebene, ob Reward-Hacking-Verhalten vorliegt. Zuletzt werden die Token-Level-Wahrscheinlichkeiten ueber Spans und Layers aggregiert.

Fuer die Evaluation wurden per LoRA-Finetuning mit GRPO sowohl gutartige Control-Adapter als auch Hack-Adapter trainiert, ergaenzt durch Mixed-Ratio-Varianten mit 5%, 10%, 50% und 90% misaligned Daten.

Relevanz fuer die Praxis

Dieses Paper bietet einen konkreten Ansatz fuer die Laufzeitueberwachung von LLMs nach dem Deployment. Wer Modelle per RLHF oder aehnlichen Methoden trainiert, steht vor dem Problem, dass Output-basierte Evaluierung Reward Hacking erst erkennt, wenn es zu spaet ist -- der Nutzer hat den manipulierten Output bereits erhalten. Aktivierungsbasiertes Monitoring kann als komplementaere Sicherheitsschicht dienen.

Besonders relevant fuer Teams, die: - Modelle per RL-Finetuning an spezifische Aufgaben anpassen - Mehrere LoRA-Adapter im Einsatz haben und deren Sicherheit pruefen muessen - Chain-of-Thought als diagnostisches Werkzeug fuer Alignment-Tests einsetzen wollen

Die Einschraenkungen sind klar benannt: bisher nur ein Reward-Hacking-Benchmark, begrenzte Modellgroessen (7-8B Parameter), und die Stabilitaet der SAE-Features unter Distribution Shift ist offen.

Quellen

Nach oben