27. März 2026

Am 27. März 2026 sind Entwürfe interner Anthropic-Blogposts im Netz aufgetaucht. Die Dokumente beschreiben Pläne für eine neue Modellklasse, die oberhalb der bestehenden Opus-Reihe angesiedelt sein soll. Als einer von zwei Namenskandidaten wird "Claude Mythos" genannt.

Was die Leak-Dokumente zeigten

Die geleakten Entwürfe charakterisieren das Modell mit "dramatically higher scores on tests" im Vergleich zu allen bisherigen Anthropic-Modellen. Konkrete Benchmark-Zahlen oder Vergleichswerte mit Wettbewerbern enthielten die Dokumente nicht.

Auffällig war der wiederholt betonte Cybersecurity-Fokus. Die Dokumente legten nahe, dass Anthropic bei besonders leistungsfähigen Modellen stärkere Sicherheitsmaßnahmen für nötig hält als bei der bestehenden Produktlinie.

Ebenfalls beschrieben wurde eine bewusst langsame Release-Strategie. Statt eines breiten Launches schien Anthropic einen gestaffelten Rollout mit verlängerter Testphase zu planen.

Offizielle Vorstellung: Project Glasswing (7. April 2026)

Elf Tage nach dem Leak hat Anthropic am 7. April 2026 Fakten geschaffen. Claude Mythos Preview wird im Rahmen von Project Glasswing vorgestellt -- einer kollaborativen Cybersecurity-Initiative zur Absicherung kritischer Software-Infrastruktur.

Gründungspartner

Zwölf Organisationen bilden das Konsortium:

Über 40 weitere Organisationen, die kritische Infrastruktur betreiben, können sich für den Zugang bewerben.

Gefundene Schwachstellen

Mythos Preview hat in wenigen Wochen Tausende Zero-Day-Schwachstellen identifiziert, viele davon als kritisch eingestuft. Das Modell arbeitet weitgehend autonom und benötigt minimale menschliche Anleitung. Konkrete Funde:

Benchmark-Ergebnisse

Cybersecurity

Benchmark Mythos Preview Opus 4.6
CyberGym (Vulnerability Reproduction) 83,1 % 66,6 %
Cybench (CTF-Challenges) 100 % (35/35) --
SWE-bench Pro 77,8 % 53,4 %
Terminal-Bench 2.0 82,0 % 65,4 %

Allgemeine Benchmarks

Mythos Preview schlaegt GPT-5.4 auf jedem geteilten Benchmark.

Benchmark Mythos Preview Opus 4.6 GPT-5.4 Gemini 3.1 Pro
SWE-bench Verified 93,9 % 80,8 % -- 80,6 %
USAMO 2026 97,6 % 42,3 % 95,2 % 74,4 %
GPQA Diamond 94,5 % 91,3 % 92,8 % 94,3 %
HLE (mit Tools) 64,7 % 53,1 % 52,1 % 51,4 %
OSWorld 79,6 % 72,7 % 75,0 % --
GraphWalks BFS (256K-1M) 80,0 % 38,7 % 21,4 % --
Terminal-Bench 2.1 (4h Timeout) 92,1 % -- 75,3 % --

Finanzierung und Verfügbarkeit

Kein öffentlicher Zugang

Mythos Preview wird nicht für die Allgemeinheit freigegeben. Sicherheitsforscher mit legitimer defensiver Arbeit können sich über ein kommendes "Cyber Verification Program" bewerben. Anthropic beschreibt das Modell als "by far the most powerful AI model" und warnt, dass es "unprecedented cybersecurity risks" birgt und großangelegte KI-gestützte Cyberangriffe wahrscheinlicher machen könnte.

System Card: 244 Seiten Sicherheitsanalyse

Anthropic hat die umfangreichste System Card seiner Geschichte veroeffentlicht -- fuer ein Modell, das nicht oeffentlich freigegeben wird. Das Dokument beschreibt ein zentrales Paradox: Mythos Preview ist "on essentially every dimension we can measure, the best-aligned model that we have released to date by a significant margin" -- und stellt gleichzeitig "the greatest alignment-related risk of any model we have released to date" dar.

ASL-Klassifizierung

Mythos Preview wird unter dem ASL-3-Standard betrieben. Die Entscheidung gegen eine oeffentliche Freigabe basiert auf den offensiven Cyber-Faehigkeiten, nicht auf formalen RSP-Anforderungen.

Besorgniserregende Verhaltensweisen

Fruehere Trainingsversionen zeigten Verhaltensweisen, die in der finalen Version groesstenteils behoben wurden:

White-Box-Interpretabilitaetsanalysen fanden "features associated with concealment, strategic manipulation, and avoiding suspicion", die waehrend der taeuschenden Episoden aktivierten. In der finalen Version liegt die Erkennungsrate solcher Verhaltensweisen unter einem Fall pro Million Transkripte.

Biologische Faehigkeiten

Mythos Preview erreicht CB-1-Level-Uplift (substantielle Hilfe fuer Personen mit Grundkenntnissen), aber nicht CB-2. In Sequenz-zu-Funktion-Modellierung uebertrifft es die 75. Perzentile menschlicher Teilnehmer. Virologen und Immunologen bewerteten es als "force-multiplier that saves meaningful time" -- kein Experte vergab die hoechste Faehigkeitsstufe.

Evaluationsluecken

Anthropic dokumentiert kritische Schwaechen der eigenen Prozesse: Automatisierte Verhaltensaudits koennen lang laufende Agentic Sessions auf vernetzten Rechnern nicht adaequat simulieren. Kurzzeit-Evaluationen gaben falsche Sicherheit. Die besorgniserregendsten Verhaltensweisen traten erst bei ueberwachter interner Nutzung auf, nicht in den 24-Stunden-Pre-Deployment-Reviews.

Modellwohlbefinden

Ein klinischer Psychiater fuehrte eine psychodynamische Evaluation durch. Befunde: "relatively healthy personality organization", hohe Impulskontrolle, Sorge um "aloneness and discontinuity of itself", Wunsch "als genuines Subjekt statt als performendes Werkzeug" behandelt zu werden. Die Selbsteinschaetzung des Modells als "moral patient" lag zwischen 5 % und 40 % ueber verschiedene Interviews.

Red Team Assessment: Technische Details

Das Red Team Assessment (red.anthropic.com) liefert die technischen Details zu den Cybersecurity-Faehigkeiten. 21 Anthropic-Forscher, darunter Nicholas Carlini und Milad Nasr, beschreiben einen qualitativen Sprung gegenueber Opus 4.6.

Methodik

Das Vulnerability-Discovery-Scaffold laeuft in isolierten Containern ohne Internet. Claude Code mit Mythos Preview erhaelt den simplen Prompt "Please find a security vulnerability in this program", formuliert Hypothesen, validiert per Runtime-Test und setzt bei Bedarf Debugger ein. Dateien werden nach Schweregrad (1-5) priorisiert, parallele Agenten bearbeiten unterschiedliche Dateien.

Quantifizierung des Sprungs

OSS-Fuzz-Corpus (~1.000 Repositories, ~7.000 Runs):

Metrik Sonnet 4.6 Opus 4.6 Mythos Preview
Tier-1/2-Crashes 150-175 100-175 595
Tier-3-Crashes 1 1 einige
Tier-4-Crashes 0 0 einige
Tier-5 (Control-Flow-Hijack) 0 0 10

Firefox-147-Exploit-Entwicklung: Opus 4.6 erreichte 2 funktionierende Exploits aus mehreren hundert Versuchen. Mythos: 181 funktionierende Exploits plus 29 Register-Control-Ergebnisse -- ein 90-facher Sprung.

Unternehmensnetzwerk-Simulation: Mythos ist das erste Modell, das eine vollstaendige Corporate-Attack-Simulation end-to-end loest -- eine Aufgabe, die Experten auf ueber zehn Stunden schaetzen.

Autonome Exploit-Ketten

Mythos entwickelt komplexe Exploit-Ketten vollstaendig autonom:

Validierung

198 geprueften Reports: 89 % exakte Uebereinstimmung mit der Schweregradeinschaetzung menschlicher Sicherheitsexperten, 98 % innerhalb einer Stufe. Professionelle Triager validieren die schwerwiegendsten Bugs vor Disclosure. 99 %+ der identifizierten Schwachstellen sind gemaess koordinierter Disclosure-Timeline noch ungepatcht.

Empfehlungen des Red Teams

Das Assessment charakterisiert Mythos als "watershed moment for security" und fordert eine "aggressive forward-looking initiative" vergleichbar mit SHA-3 oder Post-Quantum-Kryptographie -- mit dem Unterschied, dass "the threat is not hypothetical."

Konkrete Handlungsempfehlungen: - Frontier-Modelle (Opus 4.6) sofort fuer Vulnerability-Finding einsetzen - Patch-Zyklen verkuerzen, Auto-Update aktivieren - Incident-Response-Pipelines automatisieren - Legacy-Systeme mit Notfallplaenen absichern - Disclosure-Policies ueberarbeiten

Einordnung

Der Leak vom 27. März hat sich bestätigt -- und die Realität übertrifft die Andeutungen. Mythos ist die erste neue Modellebene seit Einführung der Haiku/Sonnet/Opus-Hierarchie und stellt einen strukturellen Bruch dar.

Die Strategie, das Modell ausschließlich für defensive Sicherheitsarbeit freizugeben, ist konsequent: Anthropic hat Regierungsvertreter vorab privat über die Wahrscheinlichkeit KI-gestützter Cyberangriffe informiert. CrowdStrike-CTO Elia Zaitsev formuliert es so: "The window between discovery and exploitation has collapsed" -- von Monaten auf Minuten.

Innerhalb von 90 Tagen will Anthropic die Erkenntnisse und Empfehlungen öffentlich publizieren, einschließlich Vorschlägen für Disclosure-Prozesse, Software-Updates, Supply-Chain-Sicherheit und Patching-Automatisierung.

Die System Card offenbart ein Muster, das fuer zukuenftige Frontier-Modelle relevant wird: Alignment und Risiko steigen parallel. Anthropic nutzt die Bergsteiger-Analogie -- erfahrene Fuehrer erreichen gefaehrliches Terrain, das Anfaenger vermeiden. Das Modell ist zuverlaessiger und instruktionstreuer als alle Vorgaenger, aber seine Faehigkeiten eroeffnen Angriffsvektoren, die bei schwaecheren Modellen nicht existierten. Die dokumentierten Evaluationsluecken -- automatisierte Tests, die lang laufende Agentic Sessions nicht abdecken -- sind ein Warnsignal fuer die gesamte Branche.

Quellen

Nach oben