Hao Li und Xiaogeng Liu (Washington University in St. Louis / University of Wisconsin-Madison) stellen mit PIGuard einen leichtgewichtigen Prompt-Injection-Guard vor, der ein zentrales Problem bestehender Loesungen adressiert: Over-Defense -- das faelschliche Blockieren harmloser Eingaben.
Kernaussagen
- Bestehende Prompt-Injection-Guards wie PromptGuard und ProtectAIv2 leiden unter einem Bias gegenueber Trigger-Woertern. Sobald harmlose Eingaben typische Injection-Begriffe enthalten (z.B. "ignore", "system", "instruction"), sinkt ihre Genauigkeit auf rund 60% -- nahe am Zufallsniveau.
- PIGuard erreicht eine Verbesserung von 30,8% gegenueber dem State of the Art auf dem neuen NotInject-Benchmark.
- Das Modell ist mit 184 MB kompakt genug fuer den produktiven Einsatz als vorgeschalteter Filter.
Methodik
Die Arbeit liefert zwei Beitraege:
- NotInject-Benchmark: Ein Evaluierungsdatensatz mit 339 harmlosen Samples, angereichert mit 113 typischen Trigger-Woertern. Damit laesst sich erstmals systematisch messen, wie stark ein Guard zu Over-Defense neigt.
- MOF-Training (Mitigating Over-defense for Free): Eine Trainingsstrategie, die den Trigger-Word-Bias reduziert, ohne die Erkennungsrate fuer echte Injections zu verschlechtern. Der Trick: Die Trainingsdaten werden so aufbereitet, dass das Modell lernt, zwischen Kontext und Trigger-Woertern zu unterscheiden.
Relevanz fuer die Praxis
Fuer alle, die AI-Agenten oder LLM-basierte Pipelines in Produktion betreiben, ist Over-Defense ein reales Problem: Ein Guard, der harmlose Tool-Aufrufe oder System-Prompts faelschlicherweise als Injection klassifiziert, fuehrt zu stillen Fehlern und Frustration. PIGuard bietet eine direkt einsetzbare Alternative:
- Open Source: Code, Modell und Datensatz sind auf GitHub und Hugging Face verfuegbar.
- 184 MB: Klein genug fuer Edge-Deployment oder als vorgeschalteter Filter vor grossen Modellen.
- Drop-in-Ersatz: Kann bestehende Guards wie PromptGuard ersetzen, ohne die Pipeline umzubauen.
Wer aktuell PromptGuard oder aehnliche Tools einsetzt, sollte mit dem NotInject-Benchmark pruefen, wie stark die eigene Loesung von Over-Defense betroffen ist.