2. April 2026

Microsoft MAI: Eigene Foundational Models fuer Speech, Audio und Bild

Microsofts hauseigene KI-Modellabteilung MAI hat drei neue Foundational Models vorgestellt. Die MAI-Gruppe wurde erst vor sechs Monaten gegruendet -- die ersten greifbaren Ergebnisse kommen damit ueberraschend schnell.

MAI-Transcribe-1

Das Flaggschiff der Veroeffentlichung ist MAI-Transcribe-1, ein Speech-to-Text-Modell mit klaren Eckdaten:

Daneben wurden Modelle fuer Audio-Generierung und Bild-Generierung vorgestellt, zu denen bisher weniger Details bekannt sind.

Strategischer Kontext

Die MAI-Modelle sind Teil von Microsofts breiterer Strategie, eigene KI-Forschungskapazitaeten aufzubauen und die Abhaengigkeit von OpenAI zu reduzieren. Mustafa Suleyman, CEO of AI bei Microsoft, erklaerte zeitgleich, die Neuausrichtung auf Superintelligenz sei seit neun Monaten geplant gewesen und durch die Neuverhandlung des OpenAI-Vertrags freigeschaltet worden.

Dieser Aufbau eigener Modell-Kompetenz ergaenzt die laufende Rekrutierung von KI-Forschern und den Ausbau des Superintelligence-Teams unter Suleyman, ueber den bereits Ende Maerz berichtet wurde.

Einordnung

Dass eine erst sechs Monate alte Abteilung bereits drei Foundational Models liefert, zeigt die Ressourcen, die Microsoft in diesen Bereich investiert. MAI-Transcribe-1 mit konkreten Preis- und Performance-Angaben ist dabei das greifbarste Produkt -- Speech-to-Text ist ein Markt mit etablierten Konkurrenten wie OpenAIs Whisper und Deepgrams Nova, in den Microsoft nun direkt einsteigt.

Quellen

Nach oben