2. April 2026

Sichere AI-Agenten bauen -- Systemarchitektur gegen indirekte Prompt Injection

Chong Xiang, Drew Zagieboylo, Shaona Ghosh, Sanjay Kariyappa, Kai Greshake, Hanshen Xiao, Chaowei Xiao und G. Edward Suh (NVIDIA, Johns Hopkins University) legen ein Positionspapier vor, das drei grundlegende Designprinzipien fuer sichere AI-Agenten formuliert. Das Paper geht ueber einzelne Abwehrmechanismen hinaus und adressiert die Systemarchitektur als Ganzes -- mit dem zentralen Argument, dass aktuelle Benchmarks eine falsche Sicherheit erzeugen.

Kernaussagen

Das Paper formuliert drei Positionen, die zusammen ein Architekturkonzept ergeben:

Position 1: Statische Plaene scheitern in realen Umgebungen. Die gaengige "Plan-Execution-Isolation" -- einen Plan aus der Nutzereingabe ableiten, dann unveraendert ausfuehren -- funktioniert nicht, sobald APIs sich aendern, iteratives Debugging noetig ist oder zur Laufzeit neue Ressourcen entdeckt werden. Starre Sicherheitsregeln sind entweder zu restriktiv (blockieren legitime externe Datenquellen) oder zu permissiv (uebersehen parameterspezifische Integritaetsverletzungen). Das Sicherheitsparadox: Adaptive Replanning ist notwendig, vergroessert aber die Angriffsflaeche.

Position 2: LLMs muessen Sicherheitsentscheidungen treffen -- aber unter strikten Constraints. Rein programmatische Pruefungen reichen nicht aus, weil Sicherheitsentscheidungen kontextabhaengig sind. Die Loesung: Modelle erhalten nur eng gefasste, strukturierte Artefakte und duerfen nur klar definierte Teilaufgaben bearbeiten. Zwei konkrete Mechanismen werden vorgeschlagen: Erstens, die Trennung von Instruktionserkennung und Instruktionsausfuehrung -- das Modell verbalisiert explizit, welche Anweisungen es erkannt hat, dann entscheidet das System regelbasiert ueber deren Ausfuehrung. Zweitens, schrittspezifische Validator-Synthese -- LLMs generieren deterministische Validierungsregeln fuer strukturierte Repraesentationen (z.B. DOM-zu-JSON), statt selbst adversarialen Text zu interpretieren.

Position 3: Mehrdeutige Faelle erfordern menschliches Eingreifen als Designprinzip. Manche Sicherheitsentscheidungen haengen von subjektiver Nutzerintention ab (Was ist eine "dringende" E-Mail? Darf der Agent Online-Anleitungen folgen?). Die Autoren argumentieren, dass dies eine fundamentale Grenze algorithmischen Systemdesigns darstellt. Menschliche Checkpoints muessen als Kernbestandteil der Architektur eingeplant werden, nicht als Notloesung.

Methodik

Das Paper ist ein Positionspapier, das bestehende Benchmarks kritisch analysiert und eine Referenzarchitektur mit sechs Komponenten vorschlaegt: Orchestrator (Plaene und Policies generieren), Plan/Policy Approver (Aufsicht, Eskalation an Menschen), Executor (konkrete Aktionen), Policy Enforcer (regel- oder LLM-basierte Pruefung), Environment (externe Systeme) und Feedback Loop (Trigger fuer Replanning).

Die Autoren identifizieren drei kritische Luecken in bestehenden Benchmarks (AgentDojo, InjecAgent, ASB): Erstens fehlen dynamische Tasks, die Replanning erfordern -- nur 6 von 97 AgentDojo-Tasks brauchen Policy-Updates. Zweitens sind Angriffe statisch und nicht-adaptiv statt RL- oder genetisch optimiert. Drittens fehlen kontextabhaengige Angriffsziele -- Benchmarks testen nur Action Hijacking zu vordefinierten Tool-Calls, nicht die Manipulation von Parametern legitimer Operationen.

Relevanz fuer die Praxis

Dieses Paper liefert eine Architektur-Blaupause fuer jeden, der AI-Agenten in Produktion bringt:

Defense-in-Depth statt Einzelmassnahmen. Die geschichtete Architektur -- regelbasierte Kontrollen zuerst, eingeschraenkte LLM-Entscheidungen wo noetig, menschliche Aufsicht bei Mehrdeutigkeit -- ist direkt in bestehende Agent-Frameworks uebertragbar. Wer heute einen Agenten mit Tool-Use baut, sollte explizit zwischen Planung, Ausfuehrung und Policy-Enforcement trennen.

Strukturierte Inputs statt Rohtext fuer Sicherheitsentscheidungen. Der Vorschlag, LLMs nur mit strukturierten Artefakten (JSON, getypte Traces, Diffs) statt mit rohem Umgebungstext zu fuettern, ist sofort umsetzbar. Das reduziert die Angriffsflaeche drastisch, weil injizierte Anweisungen in strukturierten Formaten weniger wirksam sind.

Benchmark-Ergebnisse kritisch hinterfragen. Die Analyse zeigt, dass hohe Scores auf aktuellen Security-Benchmarks wenig ueber reale Sicherheit aussagen. Wer Agent-Security evaluiert, sollte auf adaptive Angreifer, dynamische Tasks und kontextabhaengige Angriffsziele testen -- nicht nur auf statische Injection-Payloads.

Quellen

Nach oben