Microsoft MAI: Eigene Foundational Models fuer Speech, Audio und Bild
Microsofts hauseigene KI-Modellabteilung MAI hat drei neue Foundational Models vorgestellt. Die MAI-Gruppe wurde erst vor sechs Monaten gegruendet -- die ersten greifbaren Ergebnisse kommen damit ueberraschend schnell.
MAI-Transcribe-1
Das Flaggschiff der Veroeffentlichung ist MAI-Transcribe-1, ein Speech-to-Text-Modell mit klaren Eckdaten:
- 2.5-fach schneller als der Vorgaenger
- 0.36 Dollar pro Audio-Stunde -- preislich konkurrenzfaehig im Markt
- 25 Sprachen unterstuetzt
- Funktioniert auch bei Hintergrundgeraeusch zuverlaessig
Daneben wurden Modelle fuer Audio-Generierung und Bild-Generierung vorgestellt, zu denen bisher weniger Details bekannt sind.
Strategischer Kontext
Die MAI-Modelle sind Teil von Microsofts breiterer Strategie, eigene KI-Forschungskapazitaeten aufzubauen und die Abhaengigkeit von OpenAI zu reduzieren. Mustafa Suleyman, CEO of AI bei Microsoft, erklaerte zeitgleich, die Neuausrichtung auf Superintelligenz sei seit neun Monaten geplant gewesen und durch die Neuverhandlung des OpenAI-Vertrags freigeschaltet worden.
Dieser Aufbau eigener Modell-Kompetenz ergaenzt die laufende Rekrutierung von KI-Forschern und den Ausbau des Superintelligence-Teams unter Suleyman, ueber den bereits Ende Maerz berichtet wurde.
Einordnung
Dass eine erst sechs Monate alte Abteilung bereits drei Foundational Models liefert, zeigt die Ressourcen, die Microsoft in diesen Bereich investiert. MAI-Transcribe-1 mit konkreten Preis- und Performance-Angaben ist dabei das greifbarste Produkt -- Speech-to-Text ist ein Markt mit etablierten Konkurrenten wie OpenAIs Whisper und Deepgrams Nova, in den Microsoft nun direkt einsteigt.
Quellen
- Microsoft takes on AI rivals with three new foundational models -- TechCrunch
- Microsoft's MAI-Transcribe-1 runs 2.5x faster than its predecessor at $0.36 per audio hour -- The Decoder
- Mustafa Suleyman: Microsoft AI transcription model -- The Verge