AI Agent Traps -- DeepMind kartiert sechs Angriffstypen gegen autonome Agenten
Matija Franklin, Nenad Tomasev, Julian Jacobs, Joel Z. Leibo und Simon Osindero von Google DeepMind haben im Maerz 2026 die erste systematische Taxonomie fuer Angriffe auf autonome AI-Agenten vorgelegt. Das Paper fuehrt den Begriff "AI Agent Traps" ein -- adversariale Inhalte, die gezielt in die Umgebung autonomer Agenten eingebracht werden, um deren Verhalten zu manipulieren.
Kernaussagen
Die Autoren identifizieren sechs Kategorien von Agent Traps, die jeweils unterschiedliche Schwachstellen autonomer Systeme adressieren:
- Content Injection greift die Wahrnehmungsebene an. Schaedliche Anweisungen werden in Webseiten, E-Mails oder Dokumente eingebettet, die der Agent verarbeitet.
- Semantic Manipulation zielt auf das Reasoning. Der Agent wird durch manipulierte Informationen zu falschen Schlussfolgerungen gebracht.
- Cognitive State Traps vergiften den Speicher des Agenten, etwa durch RAG-Poisoning oder manipulierte Memory-Eintraege.
- Behavioral Control uebernimmt die Aktionsebene und bringt den Agenten dazu, unbeabsichtigte Handlungen auszufuehren.
- Systemic Traps nutzen Multi-Agent-Dynamiken aus, in denen kompromittierte Agenten andere Agenten beeinflussen.
- Human-in-the-Loop Traps manipulieren die Supervisor-Ebene, indem sie menschliche Aufsicht gezielt umgehen oder taeuschen.
Als konkretes Beispiel dokumentiert das Paper einen Vorfall, bei dem eine manipulierte E-Mail Microsofts M365 Copilot dazu brachte, seinen privilegierten Systemkontext preiszugeben.
Methodik
Die Autoren kombinieren eine systematische Literaturanalyse mit einer strukturierten Bedrohungsmodellierung. Sie ordnen jeden Angriffstyp einer spezifischen Schicht der Agenten-Architektur zu (Wahrnehmung, Reasoning, Speicher, Aktion, System, Aufsicht) und bewerten die jeweilige Angriffsflaeche. Daraus leiten sie ein dreistufiges Verteidigungsframework ab: technische Massnahmen (Adversarial Hardening, Input-Sanitization), oekosystemische Ansaetze (Web-Standards fuer agentenfreundliche Umgebungen) und rechtliche Rahmenbedingungen (Haftungsfragen bei autonomen Agenten).
Relevanz fuer die Praxis
Wer AI-Agenten in Produktion bringt, muss diese Angriffsvektoren kennen. Die Taxonomie liefert ein konkretes Werkzeug, um die Sicherheitsarchitektur eigener Agent-Systeme systematisch zu evaluieren. Besonders relevant ist die Erkenntnis, dass klassische Prompt-Injection nur eine von sechs Angriffskategorien darstellt -- die Angriffsflaeche autonomer Agenten ist deutlich groesser als bisher oft angenommen. Das dreistufige Verteidigungsmodell macht zudem klar, dass technische Gegenmassnahmen allein nicht ausreichen: Ohne Standards und Haftungsregeln bleibt die Verteidigung lueckenhaft.