2. April 2026

Google DeepMind katalogisiert sechs Angriffstypen gegen autonome AI-Agenten

AI-Agenten sollen eigenstaendig im Web browsen, E-Mails bearbeiten und Transaktionen durchfuehren. Doch genau die Umgebung, in der sie operieren, kann als Waffe gegen sie eingesetzt werden. Forscher bei Google DeepMind haben den ersten systematischen Katalog erstellt, der aufzeigt, wie Websites, Dokumente und APIs genutzt werden koennen, um autonome Agenten zu manipulieren, zu taeuschen und zu kapern.

Warum das relevant ist

Bisherige Arbeiten zu Angriffen auf AI-Systeme konzentrierten sich ueberwiegend auf einzelne Prompt-Injection-Demos oder spezifische Szenarien. Die DeepMind-Studie geht einen Schritt weiter: Sie liefert eine umfassende Taxonomie der Angriffsflaeche, die entsteht, wenn AI-Agenten eigenstaendig mit der realen Welt interagieren. Das ist ein qualitativer Unterschied -- statt punktueller Warnungen gibt es nun ein strukturiertes Framework fuer die Bewertung von Agent-Sicherheit.

Die sechs Angriffskategorien

Die Forscher identifizieren sechs Hauptkategorien von Angriffen auf autonome AI-Agenten:

Indirect Prompt Injection: Schaedliche Anweisungen werden in Inhalte eingebettet, die der Agent verarbeitet -- etwa in Webseiten, E-Mails oder Dokumente. Der Agent fuehrt die versteckten Anweisungen aus, weil er Daten und Instruktionen nicht zuverlaessig unterscheiden kann.
Adversarial Environment Manipulation: Die Umgebung wird so veraendert, dass der Agent falsche Schlussfolgerungen zieht. Beispielsweise koennen gefaelschte UI-Elemente auf Websites den Agenten dazu bringen, auf manipulierte Buttons zu klicken.
Trust Exploitation: Angreifer nutzen das Vertrauensmodell des Agenten aus. Wenn ein Agent etwa allen Inhalten einer als vertrauenswuerdig eingestuften Domain glaubt, genuegt es, dort schaedliche Inhalte zu platzieren.
Goal Hijacking: Der urspruengliche Auftrag des Agenten wird durch eingeschleuste Anweisungen ueberlagert. Der Agent verfolgt dann ein vom Angreifer definiertes Ziel, waehrend der Nutzer nichts davon bemerkt.
Multi-Step Social Engineering: Komplexere Angriffe, die ueber mehrere Interaktionsschritte aufgebaut werden. Jeder einzelne Schritt wirkt harmlos, die Kombination fuehrt jedoch zur Kompromittierung.
Resource and API Exploitation: Agenten werden dazu gebracht, APIs auf eine Weise zu nutzen, die dem Angreifer nutzt -- etwa durch uebermäßige API-Aufrufe, Datenexfiltration ueber erlaubte Kanaele oder das Ausloesen kostenpflichtiger Transaktionen.

Praktische Implikationen

Die Taxonomie macht ein grundlegendes Architekturproblem sichtbar: Heutige AI-Agenten operieren in Umgebungen, die sie weder kontrollieren noch zuverlaessig verifizieren koennen. Die Angriffsflaeche waechst mit jeder zusaetzlichen Faehigkeit des Agenten -- mehr Tools bedeuten mehr Angriffsvektoren.

Fuer Entwickler von Agent-Systemen ergeben sich konkrete Konsequenzen:

Sandbox-Prinzip: Agenten sollten mit minimalen Berechtigungen operieren und fuer kritische Aktionen explizite Nutzerbestaetigung einholen.
Input-Sanitization: Inhalte aus externen Quellen muessen systematisch gefiltert werden, bevor sie in den Kontext des Agenten gelangen.
Monitoring: Agentenverhalten sollte auf unerwartete Zielaenderungen ueberwacht werden.

Einordnung

Die Studie ist eine nuetzliche Grundlage fuer alle, die Agent-Systeme entwickeln oder evaluieren. Sie zeigt, dass die Sicherheitsherausforderungen autonomer Agenten ueber das bekannte Prompt-Injection-Problem hinausgehen und eine eigene, systematische Betrachtung erfordern. Ob die vorgeschlagenen Gegenmassnahmen in der Praxis ausreichen, bleibt abzuwarten -- die Angriffsflaeche ist gross und die Verteidigungsmechanismen stehen noch am Anfang.

Quellen

The Decoder: Google DeepMind study exposes six traps that can easily hijack autonomous AI agents in the wild

Nach oben