2. April 2026

MLPerf-Rekorde und die Grenzen von AI ohne Abstraktion

Zwei Entwicklungen aus der vergangenen Woche gehoeren zusammen gelesen: Nvidia demonstriert mit MLPerf v6.0 erneut rohe Rechenueberlegenheit -- und gleichzeitig zeigt eine Studie unter Nvidia-Beteiligung, dass reine Modellleistung ohne die richtige Abstraktion nicht ausreicht. Die Kombination beider Ergebnisse zeichnet ein differenziertes Bild davon, wo AI-Infrastruktur heute steht.

MLPerf v6.0: Neue Benchmarks, neue Rekorde

Die am 1. April 2026 veroeffentlichte MLPerf Inference v6.0 bringt erstmals multimodale und Video-Modelle in die Benchmark-Suite:

Qwen3-VL-235B: Ein Vision-Language-Modell als erster multimodaler Benchmark
WAN-2.2-T2V: Text-zu-Video als voellig neue Kategorie
DeepSeek-R1: Interaktives Szenario mit fuenffach hoeherer Token-Rate
GPT-OSS-120B und DLRMv3 als weitere neue Testfelder

Nvidia reichte als einziger Hersteller Ergebnisse fuer alle neuen Kategorien ein. Mit vier GB300-NVL72-Systemen (288 Blackwell Ultra GPUs) erreichte Nvidia 2,49 Millionen Tokens pro Sekunde auf DeepSeek-R1 im Offline-Szenario. Bemerkenswert: Eine 2,7-fache Leistungssteigerung auf DeepSeek-R1 kam allein durch Software-Optimierungen auf identischer Hardware zustande.

AMD und Intel: Unterschiedliche Schlachtfelder

Der direkte Vergleich zwischen den Herstellern wird zunehmend schwieriger, weil jeder andere Metriken betont:

AMD: Der MI355X erreicht erstmals ueber eine Million Tokens pro Sekunde in Multi-Node-Konfigurationen. In Single-Node-Setups mit acht GPUs ist er mit Nvidias B200 vergleichbar oder teilweise besser. AMDs Argument ist Kosteneffizienz.
Intel: Fokussiert sich mit den Arc Pro B70/B65 GPUs bewusst auf Workstations und Edge-Systeme statt auf das Datenzentrum. Andere Liga, anderer Anspruch.

Das Ergebnis: MLPerf bleibt der wichtigste standardisierte Vergleich, aber die Interpretation wird politischer. Jeder Hersteller kann sich als Gewinner in seinem Segment praesentieren.

Wenn rohe Rechenleistung nicht reicht

Parallel zu den MLPerf-Ergebnissen veroeffentlichten Forscher von Nvidia, UC Berkeley, Stanford und Carnegie Mellon eine Studie, die einen blinden Fleck der reinen Skalierungsstrategie aufzeigt. Das Team um Jim Fan (Leiter der Robotik-Forschung bei Nvidia) testete mit der Open-Access-Plattform CaP-X zwoelf Frontier-Modelle -- darunter Gemini-3-Pro, GPT-5.2, Claude Opus 4.5, Qwen3-235B und DeepSeek-V3.1 -- auf sieben Roboter-Manipulationsaufgaben.

Das Ergebnis ist eindeutig: Kein einziges der zwoelf getesteten Frontier-Modelle erreicht die Zuverlaessigkeit menschlich geschriebener Programme in einem einzelnen Versuch. Die Erfolgsrate haengt dramatisch davon ab, welche Abstraktionsebene verfuegbar ist. Ohne High-Level-Funktionen muessen Modelle Dutzende Code-Zeilen korrekt kombinieren statt einzelne Funktionsaufrufe zu nutzen -- und scheitern daran.

Agentic Scaffolding als Loesung

Die Forscher zeigen allerdings auch den Ausweg: Ein System namens CaP-Agent0, das auf drei Komponenten setzt:

Visual Differencing Module: Ein separates Vision-Language-Modell beschreibt die Szene textbasiert, statt rohe Kamerabilder zu verarbeiten. Die strukturierte Zwischenschicht macht den entscheidenden Unterschied.
Automatische Funktionsbibliothek: Erfolgreiche Code-Fragmente werden als wiederverwendbare Bausteine gespeichert -- das System baut sich seine eigenen Abstraktionen.
Parallele Code-Generierung: Neun Loesungskandidaten entstehen gleichzeitig mit unterschiedlichen Temperaturen. Ein Supervisor-Agent synthetisiert die beste Loesung.

CaP-Agent0 ist trainingsfrei und erreicht auf vier von sieben Aufgaben menschliche Code-Performance oder uebertrifft sie. Ein Qwen2.5-Coder-7B-Modell -- deutlich kleiner als die getesteten Frontier-Modelle -- verbesserte sich mit Reinforcement Learning beim Wuerfelstapeln von 4% auf 44% in der Simulation und 76% auf einem echten Franka-Roboter.

Was das zusammen bedeutet

Die Kombination beider Entwicklungen liefert eine klare Botschaft: Mehr Rechenleistung allein loest nicht alle Probleme. Nvidia kann MLPerf-Rekorde brechen und gleichzeitig zeigt Nvidias eigene Forschung, dass die richtige Abstraktion wichtiger ist als das groessere Modell. Ein 7B-Modell mit durchdachtem Scaffolding schlaegt ein 235B-Modell ohne passende Abstraktionsebene.

Fuer die Praxis heisst das: Wer AI-Systeme fuer physische Aufgaben baut, sollte mehr Zeit in die Architektur der Abstraktionsschichten investieren als in die Auswahl des groessten verfuegbaren Modells. Die Hardware-Fortschritte aus MLPerf sind real und relevant -- aber sie entfalten ihr Potenzial erst, wenn die Software-Architektur stimmt.

Quellen

Nach oben