2. April 2026

AgentWatcher -- Regelbasierter Prompt-Injection-Monitor fuer AI-Agenten

Yanting Wang, Wei Zou, Runpeng Geng und Jinyuan Jia stellen AgentWatcher vor -- ein zweistufiges Erkennungssystem fuer Prompt-Injection-Angriffe in LLM-Agenten. Das System adressiert zwei Schwaechen bisheriger Abwehrmechanismen: den Leistungsabfall bei langen Kontexten und die fehlende Nachvollziehbarkeit der Erkennung. AgentWatcher reduziert die Angriffsrate auf unter 1% bei nur 2% Nutzungseinbusse.

Kernaussagen

Bestehende Prompt-Injection-Erkennung versagt bei langen Kontexten, weil injizierte Anweisungen in der Textmasse untergehen. AgentWatcher loest das durch einen zweistufigen Ansatz: Zuerst identifiziert eine Attributions-Phase mittels Sliding-Window-Analyse die Kontextsegmente, die kausal fuer die Aktion des Agenten verantwortlich sind. Dann prueft ein separates Monitor-LLM diese Segmente anhand expliziter Regeln auf boeswillige Anweisungen.

Die Ergebnisse auf etablierten Benchmarks sind ueberzeugend: Auf AgentDojo sinkt die Angriffsrate auf unter 1% bei nur 2% Utility-Verlust. Auf AgentDyn erreicht AgentWatcher 0% Angriffsrate bei 48,3% Utility -- der beste Wert aller getesteten Abwehrmechanismen.

Ein zentraler Vorteil gegenueber Policy-basierten Ansaetzen wie CaMeL oder DRIFT: Die regelbasierte Erkennung ist flexibel und erklaerbar. Das Monitor-LLM referenziert in seiner Begruendung konkrete Regeln, was die Nachvollziehbarkeit von Sicherheitsentscheidungen drastisch verbessert. Regeln koennen zudem domainspezifisch angepasst werden -- etwa um Inhalte bestimmter Quellen als vertrauenswuerdig zu markieren.

Methodik

AgentWatcher arbeitet in zwei Phasen. Die Attribution identifiziert mittels Attention-Analyse und Sliding-Window-Mechanismus sogenannte "Sink Tokens" -- Positionen, die ueberproportional hohe Attention-Gewichte erhalten und damit kausal fuer die Aktion des Agenten sind. Im Gegensatz zu fixen Textpartitionen verhindert der Sliding-Window-Ansatz, dass injizierte Anweisungen ueber Segmentgrenzen fragmentiert werden.

In der Monitor-Phase prueft ein separates LLM die attributierten Segmente anhand expliziter Regeln. Diese umfassen unter anderem: Erkennung von Anweisungen, die den Ziel-Task ueberschreiben, Geldtransfers ausloesen, Ressourcen exfiltrieren oder den Ausfuehrungsfluss umleiten. Zusaetzliches GRPO-Fine-Tuning auf 20.000 Samples verbessert die Erkennungsleistung und trainiert das Monitor-LLM, Regeln in seiner Begruendung explizit zu zitieren.

Die Evaluation umfasst vier Agent-Benchmarks (AgentDojo, AgentDyn, InjecAgent, WASP) sowie sechs LongBench-Datasets. Getestet wird mit GPT-4o, Claude-3 und Gemini als Backbone-Modellen.

Relevanz fuer die Praxis

Fuer Entwickler, die AI-Agenten in Produktion betreiben, liefert AgentWatcher drei konkrete Erkenntnisse:

Selektive Ueberwachung statt Totalueberwachung. Mit ca. 8,2 Sekunden Erkennungszeit pro Aufruf auf einer A100 GPU ist das System nicht fuer jeden Tool-Call geeignet. Die Autoren empfehlen, die Ueberwachung auf risikoreiche Aktionen zu beschraenken -- Dateiloeschungen, Credential-Zugriffe, Finanztransaktionen. Das entspricht dem Prinzip, Sicherheitskontrollen dort einzusetzen, wo der potenzielle Schaden am groessten ist.

Regelbasierte Erkennung ist praxistauglicher als starre Policies. Policy-basierte Systeme (wie CaMeL) erzwingen harte Datenfluss-Constraints durch Code-Checks. Das funktioniert in kontrollierten Umgebungen, versagt aber bei der Vielfalt realer Szenarien. AgentWatchers regelbasierter Ansatz erlaubt weichere, kontextabhaengige Entscheidungen -- ein Monitor-LLM kann mehrere Regeln gleichzeitig abwaegen und Grenzfaelle besser handhaben.

Automatische Regelgenerierung funktioniert. Die Autoren testen drei Strategien zur automatischen Regelgenerierung und zeigen, dass diese vergleichbare Ergebnisse wie manuell geschriebene Regeln erzielen. Das senkt die Einstiegshuerde fuer Teams, die Agent-Security einsetzen wollen, aber keine Sicherheitsexperten im Team haben.

Quellen

Nach oben