3. April 2026

Hao Li und Xiaogeng Liu (Washington University in St. Louis / University of Wisconsin-Madison) stellen mit PIGuard einen leichtgewichtigen Prompt-Injection-Guard vor, der ein zentrales Problem bestehender Loesungen adressiert: Over-Defense -- das faelschliche Blockieren harmloser Eingaben.

Kernaussagen

Methodik

Die Arbeit liefert zwei Beitraege:

  1. NotInject-Benchmark: Ein Evaluierungsdatensatz mit 339 harmlosen Samples, angereichert mit 113 typischen Trigger-Woertern. Damit laesst sich erstmals systematisch messen, wie stark ein Guard zu Over-Defense neigt.
  2. MOF-Training (Mitigating Over-defense for Free): Eine Trainingsstrategie, die den Trigger-Word-Bias reduziert, ohne die Erkennungsrate fuer echte Injections zu verschlechtern. Der Trick: Die Trainingsdaten werden so aufbereitet, dass das Modell lernt, zwischen Kontext und Trigger-Woertern zu unterscheiden.

Relevanz fuer die Praxis

Fuer alle, die AI-Agenten oder LLM-basierte Pipelines in Produktion betreiben, ist Over-Defense ein reales Problem: Ein Guard, der harmlose Tool-Aufrufe oder System-Prompts faelschlicherweise als Injection klassifiziert, fuehrt zu stillen Fehlern und Frustration. PIGuard bietet eine direkt einsetzbare Alternative:

Wer aktuell PromptGuard oder aehnliche Tools einsetzt, sollte mit dem NotInject-Benchmark pruefen, wie stark die eigene Loesung von Over-Defense betroffen ist.

Quellen

Nach oben