Mistral Small 4: Ein Modell ersetzt drei -- Reasoning, Multimodal und Coding vereint
Am 16. Maerz 2026 hat Mistral AI mit Mistral Small 4 ein Modell veroeffentlicht, das einen klaren architektonischen Bruch mit der bisherigen Produktstrategie darstellt. Statt separater Modelle fuer verschiedene Aufgabenbereiche -- Magistral fuer Reasoning, Pixtral fuer Multimodal, Devstral fuer Coding -- vereint Mistral Small 4 alle drei Faehigkeiten in einer einzigen Architektur.
Architektur und Effizienz
Mistral Small 4 ist ein Mixture-of-Experts-Modell mit bemerkenswerten Proportionen:
- 119 Milliarden Parameter gesamt, davon nur 6 Milliarden aktiv pro Token (8B inklusive Embedding- und Output-Schichten)
- 128 Experten, von denen 4 pro Token aktiviert werden
- 256K Token Context Window
- Lizenz: Apache 2.0 -- vollstaendig offen fuer kommerzielle Nutzung
Das Verhaeltnis von Gesamtgroesse zu aktiven Parametern (ca. 5%) ist aggressiver als bei vergleichbaren MoE-Modellen. Zum Vergleich: DeepSeek V4 aktiviert 3,2% seiner Parameter, MiMo-V2-Pro 4,2%, Mistral Small 4 liegt bei 5% -- alle in einer aehnlichen Groessenordnung, aber Mistral Small 4 ist mit 119B Gesamtparametern deutlich kompakter als die Trillion-Parameter-Modelle aus China.
Konfigurierbare Reasoning-Tiefe
Eine praktisch relevante Neuerung ist der konfigurierbare Reasoning-Parameter. Entwickler koennen zwischen "none" (schnelle Antwort ohne erweiterte Ueberlegung) und "high" (tiefes Reasoning mit Kette logischer Schritte) waehlen. Das erlaubt es, innerhalb desselben Modells zwischen schnellen API-Antworten und gruendlicher Analyse zu wechseln -- ohne Modellwechsel, ohne zweite Deployment-Infrastruktur.
Performance-Gewinne
Gegenueber dem Vorgaenger Mistral Small 3 liefert das neue Modell:
- 40% niedrigere End-to-End-Latenz
- 3-facher Durchsatz (Requests pro Sekunde)
- Auf dem LiveCodeBench uebertrifft es GPT-OSS 120B bei 20% weniger Output -- das Modell ist nicht nur schneller, sondern auch praegnanter
Bei der Effizienz-Metrik AA LCR erreicht Mistral Small 4 einen Score von 0,72 mit nur 1.600 Zeichen Output, waehrend vergleichbare Qwen-Modelle 5.800 bis 6.100 Zeichen fuer aehnliche Ergebnisse benoetigen. Weniger Output bei gleicher Qualitaet bedeutet niedrigere Token-Kosten und schnellere Antwortzeiten.
Einordnung
Mistral Small 4 ist strategisch interessant aus zwei Gruenden. Erstens: Die Konsolidierung von Instruct, Reasoning und Coding in einem Modell reduziert die operative Komplexitaet fuer Teams, die bisher mehrere spezialisierte Modelle betreiben. Statt drei Modelle zu deployen, zu warten und zu aktualisieren, genuegt eines.
Zweitens: Mit Apache 2.0 und 6B aktiven Parametern ist das Modell fuer Self-Hosting attraktiv. Es laeuft auf NVIDIA NIM-Containern, ist ueber vLLM und llama.cpp nutzbar und steht auf Hugging Face zum Download bereit. Fuer Unternehmen, die KI-Workloads nicht an Cloud-APIs binden wollen, ist das eine ernstzunehmende Option.
Im Kontext des Maerz 2026 -- in dem auch Gemma 4 unter Apache 2.0 erschien -- verstaerkt Mistral Small 4 den Trend: Die leistungsfaehigsten offenen Modelle werden zunehmend unter permissiven Lizenzen veroeffentlicht. Der Wettbewerb im Open-Source-Segment verschiebt sich von "ob" zu "welches".
Quellen
- Introducing Mistral Small 4 -- Mistral AI
- Introducing Mistral Small 4 -- Simon Willison
- Mistral AI Releases Mistral Small 4: A 119B-Parameter MoE Model -- MarkTechPost
- Mistral Small 4 on Hugging Face -- Hugging Face
- Mistral Small 4: Apache 2.0 Licence -- Testing Catalog