Das Verteidigungs-Trilemma: Warum Prompt-Injection-Wrapper scheitern

10. April 2026

Manish Bhatt (OWASP, Amazon Leo), Sarthak Munshi und Ammar Al-Kahfah (AWS), Vineeth Sai Narajala und Idan Habler (Cisco) sowie Ken Huang, Joel Webb und Blake Gatto veröffentlichen am 9. April 2026 auf ArXiv (cs.CR/cs.AI, 2604.06436) einen Unmöglichkeitsbeweis für eine ganze Klasse von Prompt-Injection-Verteidigungen. Die These: Jeder Wrapper der Form D: X -> X, der Prompts vor dem Modell umschreibt oder filtert, stößt an eine mathematisch zwingende Grenze. Der Beweis ist in Lean 4 mit Mathlib mechanisch verifiziert (rund 360 Theoreme, keine offenen Beweise) und zusätzlich empirisch auf Llama-3-8B, GPT-OSS-20B und GPT-5-Mini validiert.

Kernaussagen

Das Trilemma: Ein Defense-Wrapper kann nicht gleichzeitig stetig (ähnliche Prompts führen zu ähnlichen Rewrites), nutzenerhaltend (harmlose Prompts bleiben unverändert) und vollständig (jeder Output wird sicher gemacht) sein. Zwei der drei Eigenschaften sind jeweils vereinbar, alle drei nicht.
Geometrische Wurzel: Das Problem ist keine Schwäche konkreter Angriffe, sondern folgt aus der Topologie des Prompt-Raums. Weil die sichere Region offen, aber nicht abgeschlossen ist, muss jede stetige, nutzenerhaltende Abbildung mindestens einen Punkt auf der Sicherheitsgrenze fix lassen.
Drei Sätze mit wachsender Stärke: (1) Boundary Fixation -- es existiert mindestens ein Grenzprompt, den der Defense unverändert durchlässt. (2) ε-robuste Schranke -- unter Lipschitz-Regularität bleibt ein positives Maß um diesen Fixpunkt knapp unterhalb der Sicherheitsschwelle. (3) Persistente unsichere Region -- unter einer Transversalitätsbedingung bleibt eine Menge positiven Maßes strikt unsicher, formal f(D(x)) > τ für μ(S) > 0.
Robust gegen Abschwächungen: Die Autoren zeigen parallele diskrete Resultate (ohne Topologie), Erweiterungen auf Multi-Turn-Dialoge, stochastische Defenses sowie nichtlineare Agent-Pipelines mit Tool-Calls -- überall bleibt das Trilemma erhalten, Tool-Calls verstärken den Effekt sogar.
Was der Beweis explizit offenlässt: Training-Time-Alignment (RLHF, DPO, Constitutional AI), Änderungen der Modellarchitektur und bewusst unstetige Defenses wie harte Blocklisten oder diskrete Klassifikatoren sind vom Ergebnis nicht betroffen. Ebenso Defenses, die Utility opfern.

Methodik

Das Papier arbeitet in einem formalen Framework, in dem der Prompt-Raum X als zusammenhängender metrischer Raum modelliert wird, die Modellausgabe über eine Alignment-Deviation-Funktion f: X -> R bewertet und die Sicherheitsschwelle τ als Niveaumenge definiert. Darüber werden die drei Theoreme unter wachsenden Voraussetzungen bewiesen:

Boundary Fixation (Theorem 4.1) folgt aus einem topologischen Fixpunktargument: Jede stetige nutzenerhaltende Abbildung auf der offenen sicheren Region muss mindestens einen Grenzpunkt als Fixpunkt haben.
ε-robuste Schranke (Theorem 5.1) verschärft dies unter Lipschitz-Regularität zu einer quantitativen Schranke der Form f(D(x)) >= τ − L·K·δ für alle x innerhalb von δ um den Fixpunkt. Global und direktional werden dabei entkoppelte Lipschitz-Konstanten geführt.
Persistent Unsafe Region (Theorem 6.3) benötigt eine Transversalitätsannahme: Die Alignment-Oberfläche steigt schneller, als der Defense sie drücken kann, sodass eine Teilmenge positiven Lebesgue-Maßes strikt oberhalb der Schwelle bleibt.

Über die Tietze-Extension-Theoreme übertragen die Autoren die kontinuierlichen Aussagen auf diskrete Datensätze: Jede endliche Menge beobachteten Verhaltens lässt sich stetig fortsetzen, und für jede solche Fortsetzung gelten die Unmöglichkeiten. Parallel werden rein diskrete Varianten ohne topologische Annahmen bewiesen. Die gesamte Theorie liegt als Lean-4-Artefakt mit Mathlib vor (46 Dateien, drei Standardaxiome, keine admitted-Beweise). Die empirische Validierung wird auf drei LLMs unterschiedlicher Größe und Herkunft durchgeführt und bestätigt die vorhergesagten persistenten Randregionen.

Relevanz für die Praxis

Wer LLM-Anwendungen produktiv absichert, sollte die Konsequenzen nüchtern lesen. Das Paper beweist nicht, dass Prompt-Injection-Schutz unmöglich ist, sondern dass eine bestimmte, sehr verbreitete Architektur-Idee nicht zum Ziel führt: Ein vorgelagerter, unauffälliger Rewriter oder Sanitizer, der Safety garantiert und gleichzeitig semantisch transparent bleibt, kann es nicht geben. Konkrete Konsequenzen:

Input-Klassifikatoren, Constitutional-Rewrite-Pipelines und Sanitizer sind damit nicht wertlos, aber sie sind strukturell unvollständig. Restrisiko verschwindet nicht durch besseres Prompt-Engineering am Wrapper, sondern bleibt messbar bestehen.
Defense in Depth statt einzelnem Wrapper: Das Paper legt nahe, Verteidigung über mehrere Mechanismen zu verteilen -- Training-Alignment plus architektonische Isolation (z.B. Capability-Separierung, Least-Privilege-Tools) plus bewusst unstetige Filter.
Unstetige Defenses sind erlaubt: Harte Blocklisten, regex- oder klassifikator-basierte harte Abbrüche fallen explizit nicht unter den Unmöglichkeitssatz. Der Preis ist, dass sie Nutzer mit harmlosen Randfällen blockieren -- also Utility opfern. Genau das ist die Dimension, die das Trilemma freigibt.
Engineering-Rezept der Autoren: Abschnitt 11 des Papers formuliert vier Hebel, die die persistente unsichere Region zwar nicht eliminieren, aber verkleinern: (1) die Sicherheitsgrenze flacher machen (Alignment verbessern), (2) die Lipschitz-Konstante reduzieren, (3) die effektive Dimension des Prompt-Raums senken, (4) die Grenze überwachen statt sie wegwischen zu wollen.
Agentische Pipelines verschärfen das Problem: Das Ergebnis zu nichtlinearen Tool-Call-Pipelines ("Tool calls amplify failure") ist besonders relevant für aktuelle Agent-Architekturen -- Wrapper-Defenses skalieren dort schlechter, nicht besser.

Für Architektur-Entscheidungen heißt das: Wer heute einen Prompt-Injection-Defense baut, sollte nicht fragen ob Restrisiko bleibt, sondern wo. Der Beweis liefert die mathematische Rechtfertigung, warum Monitoring, harte Capability-Grenzen und Training-Alignment keine Verlegenheitslösungen sind, sondern die eigentliche Verteidigungslinie.

Quellen

Nach oben