NVIDIA Nemotron 3 Super: Hybrid-Architektur fuer agentic AI
Am 11. Maerz 2026, zum Auftakt der GTC-Konferenz, hat NVIDIA Nemotron 3 Super veroeffentlicht -- ein Open-Weight-Modell mit 120 Milliarden Parametern, von denen nur 12 Milliarden pro Forward Pass aktiviert werden. Das Modell ist explizit fuer agentic AI konzipiert und haelt den SWE-bench-Verified-Rekord unter Open-Weight-Modellen.
Architektur: Drei Layer-Typen in einem Modell
Die eigentlich interessante Neuerung ist nicht die Groesse, sondern die Architektur. Nemotron 3 Super kombiniert drei verschiedene Layer-Typen in einem einzigen Modell:
Mamba-2 State-Space-Layer uebernehmen die primaere Sequenzverarbeitung. Sie arbeiten in linearer Zeitkomplexitaet statt der quadratischen Skalierung von Standard-Transformern. Das macht das 1-Million-Token-Kontextfenster erst praktikabel -- bei quadratischer Skalierung waeren die Rechenkosten fuer eine Million Token prohibitiv.
Transformer-Attention-Layer sind an strategischen Stellen im Netzwerk platziert. Sie liefern die praezise assoziative Erinnerung, die reine State-Space-Modelle nicht bieten koennen -- etwa das exakte Auffinden einer bestimmten Information in einem langen Kontext.
MoE-Layer mit LatentMoE-Routing aktivieren nur einen Teil der Experten pro Token. Das Besondere an NVIDIAs Ansatz: Token-Embeddings werden vor dem Routing in einen latenten Raum komprimiert. Das erlaubt laut NVIDIA "4x so viele Experten-Spezialisten bei gleichen Inferenzkosten" im Vergleich zu Standard-MoE.
Dazu kommt Multi-Token Prediction (MTP): Spezialisierte Koepfe sagen mehrere zukuenftige Token gleichzeitig voraus. Das verbessert nicht nur das Training (staerkeres Reasoning-Signal), sondern fungiert zur Inferenzzeit als eingebauter spekulativer Decoder -- laut NVIDIA bis zu 3-fache Speedups bei strukturierter Generierung.
Training
Die Trainingspipeline ist ungewoehnlich umfangreich:
- Pre-Training: 25 Billionen Token, davon 10 Billionen einzigartige kuratierte Token, nativ in NVFP4-Praezision
- Supervised Fine-Tuning: ca. 7 Millionen Samples ueber Reasoning, Coding, Instruktionsbefolgung und Agenten-Tasks
- Multi-Environment Reinforcement Learning: 1,2 Millionen Environment-Rollouts ueber 21 verschiedene Konfigurationen via NeMo Gym
Bemerkenswert ist das native NVFP4-Training: Statt ein Modell in hoeherer Praezision zu trainieren und anschliessend zu quantisieren, wird Nemotron 3 Super von Beginn an in 4-Bit-Praezision trainiert. Das reduziert den Speicherbedarf waehrend des Trainings, erfordert aber besondere Massnahmen fuer numerische Stabilitaet.
Benchmark-Ergebnisse
| Benchmark | Nemotron 3 Super | GPT-OSS 120B | Qwen3.5-122B |
|---|---|---|---|
| SWE-bench Verified | 60,47% | 41,90% | ~55% |
| PinchBench (OpenClaw) | 85,6% | -- | -- |
| RULER 1M Token | 91,75% | 22,30% | -- |
| Arena-Hard-V2 | 73,88% | 90,26% | -- |
Die Zahlen zeigen ein klares Profil: Nemotron 3 Super dominiert bei agentischen und Long-Context-Aufgaben, zeigt aber Schwaechen bei konversationeller Qualitaet (Arena-Hard-V2). Das ist ein bewusster Trade-off -- das Modell ist fuer autonome Agenten gebaut, nicht fuer Chat.
Bei PinchBench -- einem Benchmark, der misst, wie gut Modelle mit dem OpenClaw-Coding-Agenten zusammenarbeiten -- erreicht es 100% bei Automatisierungsaufgaben und 98-100% bei Datenzusammenfassungen. Beim RULER-Benchmark fuer Long-Context-Retrieval bei einer Million Token liegt es bei 91,75%, waehrend GPT-OSS 120B auf 22,30% faellt.
Verfuegbarkeit und Einsatz
Das Modell steht als Open Weights auf Hugging Face, build.nvidia.com, Perplexity und OpenRouter zur Verfuegung. Kodierungsagenten wie CodeRabbit, Factory und Greptile haben es bereits integriert. NVIDIAs eigener AI-Q Research Agent, der auf Nemotron 3 Super basiert, fuehrt sowohl den DeepResearch Bench als auch den DeepResearch Bench II an.
Einordnung
Nemotron 3 Super ist architektonisch das ambitionierteste Open-Weight-Modell im Maerz 2026. Die Kombination aus Mamba-2 und Transformer in einem einzigen Modell ist ein Ansatz, den bisher kein anderer grosser Anbieter in dieser Form verfolgt hat. Die Mamba-Layer loesen das Skalierungsproblem bei langen Kontexten, die Transformer-Layer bewahren die Praezision, und die MoE-Layer halten die Inferenzkosten niedrig.
Fuer Agent-Entwickler ist der 5-fache Durchsatzgewinn gegenueber dem Vorgaenger besonders relevant: Multi-Agent-Systeme, die viele parallele Agenten betreiben, profitieren direkt von hoeherer Inferenzeffizienz. Dass NVIDIA das Modell gleichzeitig fuer seine eigene Hardware (Blackwell, NVFP4) optimiert, ist wenig ueberraschend -- aber es zeigt, dass der Wettbewerb im Open-Weight-Segment zunehmend auch ueber Hardware-Software-Integration gefuehrt wird.
Quellen
- New NVIDIA Nemotron 3 Super Delivers 5x Higher Throughput for Agentic AI -- NVIDIA Blog
- Introducing Nemotron 3 Super: An Open Hybrid Mamba-Transformer MoE for Agentic Reasoning -- NVIDIA Developer Blog
- NVIDIA Debuts Nemotron 3 Family of Open Models -- NVIDIA Newsroom
- Nemotron 3 Super Review: Best Open Model for Agents -- Awesome Agents
- NVIDIA Nemotron 3 Super: The new leader in open, efficient intelligence -- Artificial Analysis