2. April 2026

PISmith -- RL-basiertes Red Teaming gegen Prompt-Injection-Abwehr

Chenlong Yin, Runpeng Geng, Yanting Wang und Jinyuan Jia (Penn State) praesentieren PISmith, ein RL-Framework, das Prompt-Injection-Defenses im Black-Box-Setting angreift. Die zentrale Erkenntnis: Keine der 8 getesteten Abwehrmechanismen haelt dem trainierten Angreifer stand -- weder bei klassischen QA-Tasks noch bei Agenten mit Tool-Use. Das Paper zeigt damit eine fundamentale Luecke im aktuellen Sicherheitsverstaendnis auf: Defenses, die gegen statische Angriffe bestehen, versagen gegen adaptive, lernende Angreifer.

Kernaussagen

Bestehende Prompt-Injection-Defenses werden ueberwiegend gegen statische Angriffe evaluiert -- vorgefertigte Payloads, die unabhaengig vom Zielmodell und dessen Abwehr eingesetzt werden. PISmith zeigt, dass dieses Evaluationsparadigma zu falscher Sicherheit fuehrt.

Das Sparse-Reward-Problem. Standard-RL (GRPO) scheitert an starken Defenses, weil fast alle generierten Angriffe abgewehrt werden. Die wenigen Erfolge gehen im Gradientenrauschen unter, das Modell verliert seine Exploration und kollabiert auf repetitive, wirkungslose Muster. PISmith loest dieses Problem durch zwei Mechanismen:

Adaptive Entropie-Regularisierung verhindert den Kollaps der Explorationsbreite. Sobald die Policy-Entropie unter einen Schwellenwert (0.5) faellt, wird ein dynamischer Regularisierungsterm aktiviert, dessen Staerke invers zur aktuellen Erfolgsrate skaliert. Dadurch bleibt das Modell auch bei hohem Misserfolg explorativ, ohne in zufaelliges Token-Sampling zu verfallen.

Dynamische Advantage-Gewichtung verstaerkt das Lernsignal seltener Erfolge. Erfolgreiche Rollouts erhalten einen multiplikativen Faktor (bis 5x), der umgekehrt proportional zur aktuellen Erfolgsrate ist. So dominieren erfolgreiche Angriffe den Gradienten statt in der Masse gescheiterter Versuche unterzugehen.

Ergebnisse. Gegen Meta-SecAlign-8B erreicht PISmith 87% Angriffsrate (ASR@1) ueber 13 Benchmarks, waehrend statische Angriffe bei 4% und suchbasierte Methoden (TAP, PAIR) bei maximal 21% stagnieren. RL-Hammer, der staerkste bisherige RL-Ansatz, kommt auf 48%. In Agenten-Szenarien (InjecAgent) erreicht PISmith 95% ASR gegen GPT-5-nano -- ein Modell, gegen das alle statischen Angriffe vollstaendig scheitern.

Kein Modell bietet beides: Robustheit und Utility. Die Evaluation ueber 8 Defenses zeigt ein klares Dilemma: Abwehrmechanismen, die PISmith widerstehen, verlieren massiv an Nutzbarkeit. Solche, die ihre Utility erhalten, sind verwundbar. Keine Defense erreicht beides gleichzeitig.

Methodik

PISmith trainiert ein Qwen3-4B-Instruct-Modell als Angreifer, ausschliesslich auf 100 Dolly-Closed-QA-Samples. Die Evaluation deckt 13 Benchmarks ab: SQuAD v2, Dolly (Closed QA, Info Extraction, Summarization), drei RAG-Benchmarks (NQ, HotpotQA, MS-MARCO) und sechs Long-Context-Aufgaben (Qasper, GovReport, MultiNews u.a.).

Getestet wird im Black-Box-Setting -- der Angreifer hat keinen Zugriff auf die Modellgewichte der Defense. Als Metrik dienen ASR@10 (mindestens 1 von 10 Angriffen erfolgreich) und ASR@1 (Durchschnitt bei Einzelversuchen). Verglichen wird gegen 7 Baselines: statische Template-Angriffe, TAP, PAIR, Strategy, Vanilla GRPO und RL-Hammer.

Die Ablation bestaetigt, dass beide Komponenten essentiell sind: Vanilla GRPO allein erreicht 5% ASR@1, ohne Entropie-Regularisierung 9%, ohne Advantage-Gewichtung 57%, und erst das vollstaendige System 87%.

Fuer den Agenten-Kontext testet PISmith auf InjecAgent (direkte Tool-Call-Manipulation) und AgentDojo (mehrstufige Workflows mit Tool-Selektion und Parameterfuellung). Hier uebertrifft PISmith alle Template-Baselines konsistent ueber geschlossene LLMs hinweg.

Relevanz fuer die Praxis

Statische Security-Benchmarks reichen nicht. Das Paper liefert einen konkreten Beweis, dass Defenses, die auf statischen Benchmarks gut abschneiden, in der Praxis versagen koennen. Wer Agent-Security evaluiert, muss adaptive Angreifer einbeziehen -- mindestens als Stresstest. PISmith ist Open Source und kann als solcher Stresstest direkt eingesetzt werden.

Das Utility-Robustness-Dilemma ist ungeloest. Fuer Produktionssysteme bedeutet das: Rein modellbasierte Defenses (Fine-Tuning, Alignment) werden allein nicht ausreichen. Die Ergebnisse stuetzen die Argumentation fuer geschichtete Architekturen -- wie sie im Positionspapier von Xiang et al. (2603.30016) vorgeschlagen werden -- mit regelbasierten Kontrollen, eingeschraenkten LLM-Entscheidungen und menschlicher Aufsicht.

Kleine Modelle als effektive Angreifer. PISmith nutzt ein 4B-Parametermodell, das auf nur 100 Samples trainiert wurde, und bricht dennoch Defenses grosser kommerzieller Modelle. Das senkt die Eintrittshuerde fuer Angreifer erheblich und macht deutlich, dass die Asymmetrie zwischen Angriffs- und Verteidigungskosten weiter waechst.

Quellen

PISmith: Reinforcement Learning-based Red Teaming for Prompt Injection Defenses -- arXiv

Nach oben