Agent Audit -- Statische Sicherheitsanalyse fuer LLM-Agenten-Code
Haiyue Zhang, Yi Nian und Yue Zhao stellen Agent Audit vor -- ein statisches Analysewerkzeug, das speziell fuer LLM-Agenten-Anwendungen entwickelt wurde. Die zentrale These: Die groessten Sicherheitsrisiken in Agenten-Systemen liegen nicht im Modell selbst, sondern im umgebenden Software-Stack -- unsichere Tool-Funktionen, exponierte Credentials in Deployment-Artefakten und uebermaessig privilegierte MCP-Konfigurationen. Agent Audit kombiniert Taint-Analyse, Credential-Erkennung, Konfigurationsparsing und Privilegien-Checks in einer Multi-Scanner-Pipeline.
Kernaussagen
Bisherige Security-Tools wie Semgrep oder Bandit wurden fuer klassischen Anwendungscode entwickelt und uebersehen agentenspezifische Schwachstellen systematisch. Agent Audit schliesst diese Luecke mit vier spezialisierten Analyse-Modulen:
Agent-Aware Code-Analyse. Der Scanner erkennt 12 verschiedene Tool-Dekorator-Muster ueber LangChain, CrewAI und Custom-Frameworks hinweg (@tool, BaseTool-Subklassen etc.). Tool-dekorierte Funktionen erhalten ein erhoehtes Konfidenz-Scoring (0.90 statt 0.55), weil sie per Definition untrusted Input verarbeiten. Eine vierstufige Taint-Analyse verfolgt Datenfluss von Quellen (Funktionsparameter, chain.invoke()-Returns, request.json()-Aufrufe) ueber AST-basierte Flussgraphen bis zu gefaehrlichen Senken. Sanitization-Massnahmen (shlex.quote(), parametrisierte Queries) reduzieren die Konfidenz um den Faktor 0.20.
Prompt-Injection-Erkennung im Code. Agent Audit identifiziert Stellen, an denen Nutzereingaben direkt in System-Prompts interpoliert werden -- ueber f-Strings, .format(), String-Konkatenation und augmented Assignment (+=). Das sind keine Runtime-Angriffe, sondern strukturelle Schwachstellen im Code, die Prompt Injection erst ermoeglichen.
MCP-Konfigurations-Sicherheit. Der Scanner parst neun MCP-Konfigurationsformate (Claude Desktop, VS Code, Cursor, Windsurf u.a.) und prueft sieben dedizierte Regeln: zu breiter Dateisystemzugriff, unverifizierte Server-Quellen, exponierte Umgebungsvariablen, fehlendes Sandboxing, fehlende Authentifizierung, Schema-Sicherheit und ueberzaehlige Server. Damit adressiert Agent Audit eine Schwachstellenklasse, die bei klassischen SAST-Tools komplett fehlt.
Credential-Erkennung. Eine dreistufige Pipeline aus 40+ regulaeren Ausdruecken (API-Key-Praefixe, Connection Strings, JWT-Tokens), semantischer Analyse (Shannon-Entropie, Framework-Kontext) und Dateipfad-Anpassung (reduzierte Konfidenz in Test-Fixtures) erkennt exponierte Zugangsdaten.
Ergebnisse. Auf dem eigens erstellten Agent-Vuln-Bench (AVB) mit 42 expertennotierten Schwachstellen erreicht Agent Audit 95,24% Recall bei 86,96% Precision (F1: 0,909). Semgrep kommt auf 23,8% Recall, Bandit auf 29,7%. Der Scanner verarbeitet 25.000 Zeilen Python pro Sekunde -- 6,9x schneller als Semgrep.
Methodik
Agent Audit implementiert eine Multi-Scanner-Pipeline mit vier parallelen Scannern. Eingabedateien werden nach Typ an die zustaendigen Scanner dispatched, Funde werden durch eine zentrale Rule-Engine konsolidiert, die 73 Erkennungsmuster auf 57 Regeln abbildet, Konfidenz-Tiering durchfuehrt und Scanner-uebergreifend dedupliziert.
Das Konfidenz-System ordnet Funde in vier Stufen ein: BLOCK (ab 0.92) fuer sofortigen Handlungsbedarf, WARN (ab 0.60) fuer wahrscheinliche Probleme, INFO (ab 0.30) fuer informelle Hinweise, und SUPPRESSED (unter 0.30) fuer wahrscheinliche False Positives.
Die Benchmark-Suite Agent-Vuln-Bench umfasst 22 Samples in drei Schwachstellenkategorien: Injection/RCE (Set A, 19 Schwachstellen), MCP/Komponenten (Set B, 9) und Daten/Authentifizierung (Set C, 14). Die 57 Regeln decken alle 10 Kategorien der OWASP Agentic Security Initiative ab, mit Schwerpunkten auf Supply-Chain-Risiken (10 Regeln), Tool-Missbrauch (9 Regeln) und Identitaets-/Privilegien-Management (9 Regeln).
Relevanz fuer die Praxis
Sofort einsetzbar in der CI/CD-Pipeline. Agent Audit ist als pip-Paket installierbar, konfigurierbar ueber .agent-audit.yaml und gibt Ergebnisse in Terminal, JSON, SARIF und Markdown aus. Die SARIF-Ausgabe integriert direkt mit GitHub Code Scanning. Fuer Teams, die LLM-Agenten entwickeln, ist das der einfachste Einstieg in agentenspezifische Sicherheitspruefung.
MCP-Konfigurationen als blinder Fleck. Die explizite Pruefung von MCP-Konfigurationen ist bisher einzigartig. Angesichts der rasanten Verbreitung von MCP-Servern in Entwicklertools -- Claude Desktop, Cursor, VS Code -- adressiert Agent Audit eine Schwachstellenklasse, die in den meisten Organisationen noch gar nicht auf dem Radar ist: uebermaessige Berechtigungen, ungepruefte Server-Quellen und exponierte Umgebungsvariablen in Konfigurationsdateien.
Agentenspezifische Taint-Analyse fuellt eine echte Luecke. Die Erkennung von Tool-Dekoratoren als erhoehte Gefahrenquelle und die darauf abgestimmte Taint-Analyse ist ein qualitativer Unterschied zu generischen SAST-Tools. Die 4x hoehere Recall-Rate gegenueber Semgrep bestaetigt, dass klassische Tools fuer Agenten-Code unzureichend sind.