MLPerf-Rekorde und die Grenzen von AI ohne Abstraktion
Zwei Entwicklungen aus der vergangenen Woche gehoeren zusammen gelesen: Nvidia demonstriert mit MLPerf v6.0 erneut rohe Rechenueberlegenheit -- und gleichzeitig zeigt eine Studie unter Nvidia-Beteiligung, dass reine Modellleistung ohne die richtige Abstraktion nicht ausreicht. Die Kombination beider Ergebnisse zeichnet ein differenziertes Bild davon, wo AI-Infrastruktur heute steht.
MLPerf v6.0: Neue Benchmarks, neue Rekorde
Die am 1. April 2026 veroeffentlichte MLPerf Inference v6.0 bringt erstmals multimodale und Video-Modelle in die Benchmark-Suite:
- Qwen3-VL-235B: Ein Vision-Language-Modell als erster multimodaler Benchmark
- WAN-2.2-T2V: Text-zu-Video als voellig neue Kategorie
- DeepSeek-R1: Interaktives Szenario mit fuenffach hoeherer Token-Rate
- GPT-OSS-120B und DLRMv3 als weitere neue Testfelder
Nvidia reichte als einziger Hersteller Ergebnisse fuer alle neuen Kategorien ein. Mit vier GB300-NVL72-Systemen (288 Blackwell Ultra GPUs) erreichte Nvidia 2,49 Millionen Tokens pro Sekunde auf DeepSeek-R1 im Offline-Szenario. Bemerkenswert: Eine 2,7-fache Leistungssteigerung auf DeepSeek-R1 kam allein durch Software-Optimierungen auf identischer Hardware zustande.
AMD und Intel: Unterschiedliche Schlachtfelder
Der direkte Vergleich zwischen den Herstellern wird zunehmend schwieriger, weil jeder andere Metriken betont:
- AMD: Der MI355X erreicht erstmals ueber eine Million Tokens pro Sekunde in Multi-Node-Konfigurationen. In Single-Node-Setups mit acht GPUs ist er mit Nvidias B200 vergleichbar oder teilweise besser. AMDs Argument ist Kosteneffizienz.
- Intel: Fokussiert sich mit den Arc Pro B70/B65 GPUs bewusst auf Workstations und Edge-Systeme statt auf das Datenzentrum. Andere Liga, anderer Anspruch.
Das Ergebnis: MLPerf bleibt der wichtigste standardisierte Vergleich, aber die Interpretation wird politischer. Jeder Hersteller kann sich als Gewinner in seinem Segment praesentieren.
Wenn rohe Rechenleistung nicht reicht
Parallel zu den MLPerf-Ergebnissen veroeffentlichten Forscher von Nvidia, UC Berkeley, Stanford und Carnegie Mellon eine Studie, die einen blinden Fleck der reinen Skalierungsstrategie aufzeigt. Das Team um Jim Fan (Leiter der Robotik-Forschung bei Nvidia) testete mit der Open-Access-Plattform CaP-X zwoelf Frontier-Modelle -- darunter Gemini-3-Pro, GPT-5.2, Claude Opus 4.5, Qwen3-235B und DeepSeek-V3.1 -- auf sieben Roboter-Manipulationsaufgaben.
Das Ergebnis ist eindeutig: Kein einziges der zwoelf getesteten Frontier-Modelle erreicht die Zuverlaessigkeit menschlich geschriebener Programme in einem einzelnen Versuch. Die Erfolgsrate haengt dramatisch davon ab, welche Abstraktionsebene verfuegbar ist. Ohne High-Level-Funktionen muessen Modelle Dutzende Code-Zeilen korrekt kombinieren statt einzelne Funktionsaufrufe zu nutzen -- und scheitern daran.
Agentic Scaffolding als Loesung
Die Forscher zeigen allerdings auch den Ausweg: Ein System namens CaP-Agent0, das auf drei Komponenten setzt:
- Visual Differencing Module: Ein separates Vision-Language-Modell beschreibt die Szene textbasiert, statt rohe Kamerabilder zu verarbeiten. Die strukturierte Zwischenschicht macht den entscheidenden Unterschied.
- Automatische Funktionsbibliothek: Erfolgreiche Code-Fragmente werden als wiederverwendbare Bausteine gespeichert -- das System baut sich seine eigenen Abstraktionen.
- Parallele Code-Generierung: Neun Loesungskandidaten entstehen gleichzeitig mit unterschiedlichen Temperaturen. Ein Supervisor-Agent synthetisiert die beste Loesung.
CaP-Agent0 ist trainingsfrei und erreicht auf vier von sieben Aufgaben menschliche Code-Performance oder uebertrifft sie. Ein Qwen2.5-Coder-7B-Modell -- deutlich kleiner als die getesteten Frontier-Modelle -- verbesserte sich mit Reinforcement Learning beim Wuerfelstapeln von 4% auf 44% in der Simulation und 76% auf einem echten Franka-Roboter.
Was das zusammen bedeutet
Die Kombination beider Entwicklungen liefert eine klare Botschaft: Mehr Rechenleistung allein loest nicht alle Probleme. Nvidia kann MLPerf-Rekorde brechen und gleichzeitig zeigt Nvidias eigene Forschung, dass die richtige Abstraktion wichtiger ist als das groessere Modell. Ein 7B-Modell mit durchdachtem Scaffolding schlaegt ein 235B-Modell ohne passende Abstraktionsebene.
Fuer die Praxis heisst das: Wer AI-Systeme fuer physische Aufgaben baut, sollte mehr Zeit in die Architektur der Abstraktionsschichten investieren als in die Auswahl des groessten verfuegbaren Modells. Die Hardware-Fortschritte aus MLPerf sind real und relevant -- aber sie entfalten ihr Potenzial erst, wenn die Software-Architektur stimmt.
Quellen
- Nvidia sets new MLPerf records with 288 GPUs while AMD and Intel focus on different battles
- AI models fail at robot control without human-designed building blocks, but agentic scaffolding closes the gap
- CaP-X Paper (arXiv:2603.22435)