PIGuard: Prompt-Injection-Erkennung ohne Over-Defense

3. April 2026

Hao Li und Xiaogeng Liu (Washington University in St. Louis / University of Wisconsin-Madison) stellen mit PIGuard einen leichtgewichtigen Prompt-Injection-Guard vor, der ein zentrales Problem bestehender Loesungen adressiert: Over-Defense -- das faelschliche Blockieren harmloser Eingaben.

Kernaussagen

Bestehende Prompt-Injection-Guards wie PromptGuard und ProtectAIv2 leiden unter einem Bias gegenueber Trigger-Woertern. Sobald harmlose Eingaben typische Injection-Begriffe enthalten (z.B. "ignore", "system", "instruction"), sinkt ihre Genauigkeit auf rund 60% -- nahe am Zufallsniveau.
PIGuard erreicht eine Verbesserung von 30,8% gegenueber dem State of the Art auf dem neuen NotInject-Benchmark.
Das Modell ist mit 184 MB kompakt genug fuer den produktiven Einsatz als vorgeschalteter Filter.

Methodik

Die Arbeit liefert zwei Beitraege:

NotInject-Benchmark: Ein Evaluierungsdatensatz mit 339 harmlosen Samples, angereichert mit 113 typischen Trigger-Woertern. Damit laesst sich erstmals systematisch messen, wie stark ein Guard zu Over-Defense neigt.
MOF-Training (Mitigating Over-defense for Free): Eine Trainingsstrategie, die den Trigger-Word-Bias reduziert, ohne die Erkennungsrate fuer echte Injections zu verschlechtern. Der Trick: Die Trainingsdaten werden so aufbereitet, dass das Modell lernt, zwischen Kontext und Trigger-Woertern zu unterscheiden.

Relevanz fuer die Praxis

Fuer alle, die AI-Agenten oder LLM-basierte Pipelines in Produktion betreiben, ist Over-Defense ein reales Problem: Ein Guard, der harmlose Tool-Aufrufe oder System-Prompts faelschlicherweise als Injection klassifiziert, fuehrt zu stillen Fehlern und Frustration. PIGuard bietet eine direkt einsetzbare Alternative:

Open Source: Code, Modell und Datensatz sind auf GitHub und Hugging Face verfuegbar.
184 MB: Klein genug fuer Edge-Deployment oder als vorgeschalteter Filter vor grossen Modellen.
Drop-in-Ersatz: Kann bestehende Guards wie PromptGuard ersetzen, ohne die Pipeline umzubauen.

Wer aktuell PromptGuard oder aehnliche Tools einsetzt, sollte mit dem NotInject-Benchmark pruefen, wie stark die eigene Loesung von Over-Defense betroffen ist.

Quellen

Nach oben