10. April 2026

Manish Bhatt (OWASP, Amazon Leo), Sarthak Munshi und Ammar Al-Kahfah (AWS), Vineeth Sai Narajala und Idan Habler (Cisco) sowie Ken Huang, Joel Webb und Blake Gatto veröffentlichen am 9. April 2026 auf ArXiv (cs.CR/cs.AI, 2604.06436) einen Unmöglichkeitsbeweis für eine ganze Klasse von Prompt-Injection-Verteidigungen. Die These: Jeder Wrapper der Form D: X -> X, der Prompts vor dem Modell umschreibt oder filtert, stößt an eine mathematisch zwingende Grenze. Der Beweis ist in Lean 4 mit Mathlib mechanisch verifiziert (rund 360 Theoreme, keine offenen Beweise) und zusätzlich empirisch auf Llama-3-8B, GPT-OSS-20B und GPT-5-Mini validiert.

Kernaussagen

Methodik

Das Papier arbeitet in einem formalen Framework, in dem der Prompt-Raum X als zusammenhängender metrischer Raum modelliert wird, die Modellausgabe über eine Alignment-Deviation-Funktion f: X -> R bewertet und die Sicherheitsschwelle τ als Niveaumenge definiert. Darüber werden die drei Theoreme unter wachsenden Voraussetzungen bewiesen:

  1. Boundary Fixation (Theorem 4.1) folgt aus einem topologischen Fixpunktargument: Jede stetige nutzenerhaltende Abbildung auf der offenen sicheren Region muss mindestens einen Grenzpunkt als Fixpunkt haben.
  2. ε-robuste Schranke (Theorem 5.1) verschärft dies unter Lipschitz-Regularität zu einer quantitativen Schranke der Form f(D(x)) >= τ − L·K·δ für alle x innerhalb von δ um den Fixpunkt. Global und direktional werden dabei entkoppelte Lipschitz-Konstanten geführt.
  3. Persistent Unsafe Region (Theorem 6.3) benötigt eine Transversalitätsannahme: Die Alignment-Oberfläche steigt schneller, als der Defense sie drücken kann, sodass eine Teilmenge positiven Lebesgue-Maßes strikt oberhalb der Schwelle bleibt.

Über die Tietze-Extension-Theoreme übertragen die Autoren die kontinuierlichen Aussagen auf diskrete Datensätze: Jede endliche Menge beobachteten Verhaltens lässt sich stetig fortsetzen, und für jede solche Fortsetzung gelten die Unmöglichkeiten. Parallel werden rein diskrete Varianten ohne topologische Annahmen bewiesen. Die gesamte Theorie liegt als Lean-4-Artefakt mit Mathlib vor (46 Dateien, drei Standardaxiome, keine admitted-Beweise). Die empirische Validierung wird auf drei LLMs unterschiedlicher Größe und Herkunft durchgeführt und bestätigt die vorhergesagten persistenten Randregionen.

Relevanz für die Praxis

Wer LLM-Anwendungen produktiv absichert, sollte die Konsequenzen nüchtern lesen. Das Paper beweist nicht, dass Prompt-Injection-Schutz unmöglich ist, sondern dass eine bestimmte, sehr verbreitete Architektur-Idee nicht zum Ziel führt: Ein vorgelagerter, unauffälliger Rewriter oder Sanitizer, der Safety garantiert und gleichzeitig semantisch transparent bleibt, kann es nicht geben. Konkrete Konsequenzen:

Für Architektur-Entscheidungen heißt das: Wer heute einen Prompt-Injection-Defense baut, sollte nicht fragen ob Restrisiko bleibt, sondern wo. Der Beweis liefert die mathematische Rechtfertigung, warum Monitoring, harte Capability-Grenzen und Training-Alignment keine Verlegenheitslösungen sind, sondern die eigentliche Verteidigungslinie.

Quellen

Nach oben