2. April 2026

Microsoft MAI: Eigene Foundational Models fuer Speech, Audio und Bild

Microsofts hauseigene KI-Modellabteilung MAI hat drei neue Foundational Models vorgestellt. Die MAI-Gruppe wurde erst vor sechs Monaten gegruendet -- die ersten greifbaren Ergebnisse kommen damit ueberraschend schnell.

MAI-Transcribe-1

Das Flaggschiff der Veroeffentlichung ist MAI-Transcribe-1, ein Speech-to-Text-Modell mit klaren Eckdaten:

2.5-fach schneller als der Vorgaenger
0.36 Dollar pro Audio-Stunde -- preislich konkurrenzfaehig im Markt
25 Sprachen unterstuetzt
Funktioniert auch bei Hintergrundgeraeusch zuverlaessig

Daneben wurden Modelle fuer Audio-Generierung und Bild-Generierung vorgestellt, zu denen bisher weniger Details bekannt sind.

Strategischer Kontext

Die MAI-Modelle sind Teil von Microsofts breiterer Strategie, eigene KI-Forschungskapazitaeten aufzubauen und die Abhaengigkeit von OpenAI zu reduzieren. Mustafa Suleyman, CEO of AI bei Microsoft, erklaerte zeitgleich, die Neuausrichtung auf Superintelligenz sei seit neun Monaten geplant gewesen und durch die Neuverhandlung des OpenAI-Vertrags freigeschaltet worden.

Dieser Aufbau eigener Modell-Kompetenz ergaenzt die laufende Rekrutierung von KI-Forschern und den Ausbau des Superintelligence-Teams unter Suleyman, ueber den bereits Ende Maerz berichtet wurde.

Einordnung

Dass eine erst sechs Monate alte Abteilung bereits drei Foundational Models liefert, zeigt die Ressourcen, die Microsoft in diesen Bereich investiert. MAI-Transcribe-1 mit konkreten Preis- und Performance-Angaben ist dabei das greifbarste Produkt -- Speech-to-Text ist ein Markt mit etablierten Konkurrenten wie OpenAIs Whisper und Deepgrams Nova, in den Microsoft nun direkt einsteigt.

Quellen

Microsoft takes on AI rivals with three new foundational models -- TechCrunch
Microsoft's MAI-Transcribe-1 runs 2.5x faster than its predecessor at $0.36 per audio hour -- The Decoder
Mustafa Suleyman: Microsoft AI transcription model -- The Verge

Nach oben