26. März 2026

ARC-AGI-3: Benchmark-Reset zeigt fundamentale Reasoning-Luecke

Die ARC Prize Foundation hat ARC-AGI-3 veröffentlicht, die dritte Version ihres Benchmarks für abstraktes Reasoning. Die Ergebnisse sind ernüchternd: Kein Frontier-Modell kommt über 0.4% hinaus. Menschen lösen dieselben Aufgaben zu 100% beim ersten Versuch.

Hintergrund: Warum ein Reset nötig war

ARC-AGI wurde von François Chollet entwickelt, um eine Fähigkeit zu messen, die sich den üblichen Benchmark-Optimierungen entzieht: die Generalisierung aus wenigen Beispielen auf neue, unbekannte Aufgaben. Die erste Version setzte die Latte bewusst hoch. ARC-AGI-2 wurde dann innerhalb eines Jahres von 3% auf rund 50% hochgetrieben, nachdem die großen Labs Millionen in gezielte Optimierung investierten. Das Signal war klar: Der Benchmark war saturiert, nicht weil die Modelle wirklich abstrakt denken, sondern weil genug Ressourcen in das spezifische Problem geflossen waren.

ARC-AGI-3 reagiert darauf mit einem fundamentalen Redesign der Aufgaben.

Was ARC-AGI-3 verlangt

Die neuen Aufgaben sind spielähnliche Szenarien ohne Instruktionen. Der Agent muss eigenständig die Regeln des Szenarios entdecken, Ziele formulieren und Strategien planen. Es gibt keine Textbeschreibung, keinen Prompt, keine Beispielantworten zum Imitieren. Die Aufgaben testen damit nicht Wissen oder Mustererkennung, sondern die Fähigkeit, aus Beobachtung Struktur abzuleiten und darauf zu handeln.

Ergebnisse der Frontier-Modelle

Modell Score
Gemini Pro 0.37%
GPT 5.4 High 0.26%
Opus 4.6 0.25%
Grok-4.20 0.00%
Mensch 100%

Die Zahlen sprechen für sich. Selbst die leistungsfähigsten Modelle, die bei sprachlichen und kodierenden Aufgaben menschliches Niveau erreichen oder übertreffen, scheitern an Aufgaben, die für Menschen trivial sind.

Preisgeld und Interesse der Labs

Die ARC Prize Foundation lobt 2 Millionen Dollar Preisgeld aus. Co-Founder Mike Knoop berichtet, dass die Frontier Labs deutlich interessierter an Version 3 seien als an früheren Versionen. Das macht Sinn: ARC-AGI-2 hatte gezeigt, dass Benchmark-Saturierung möglich ist; ARC-AGI-3 stellt jetzt eine Aufgabe, die sich nicht so leicht durch Skalierung lösen lässt.

Einordnung

ARC-AGI-3 illustriert eine bekannte, aber oft übersehene Grenze aktueller Sprachmodelle. Trotz enormer Fortschritte bei sprachlichen Aufgaben, Code-Generierung und multimodalem Verstehen bleibt die Fähigkeit zu abstraktem Reasoning und Generalisierung aus wenigen Beispielen eine fundamentale Lücke. Die Modelle können Muster in Trainingsdaten interpolieren, aber sie können keine neuen Regelsysteme aus Beobachtung ableiten.

Ob ARC-AGI-3 die richtige Metrik für "allgemeine Intelligenz" ist, bleibt diskutabel. Aber als Prüfstein dafür, was heutige Modelle nicht können, ist der Benchmark aussagekräftig.

Quellen

Nach oben