27. März 2026

Cohere Spracherkennung: Open-Source-Modell uebertrifft Whisper

Cohere hat am 27. Maerz 2026 ein Open-Source-Modell fuer Spracherkennung (Speech-to-Text) veroeffentlicht. Das Modell uebertrifft laut Benchmarks alle bestehenden Konkurrenten, einschliesslich OpenAIs Whisper. Es steht unter der Apache 2.0 Lizenz und ist damit frei fuer kommerzielle Nutzung.

Eckdaten

	Cohere STT	OpenAI Whisper (large-v3)
Parameter	2 Milliarden	1,5 Milliarden
Lizenz	Apache 2.0	MIT
Sprachen	14	99+
Hardware-Anforderung	Consumer-GPU	Consumer-GPU
Benchmark-Ergebnis	Besser als Whisper	Bisheriger Standard

Mit 2 Milliarden Parametern ist das Modell relativ kompakt und explizit fuer Self-Hosting auf Consumer-Grade GPUs ausgelegt. Die Sprachabdeckung ist mit 14 Sprachen deutlich geringer als bei Whisper, das ueber 99 Sprachen unterstuetzt.

Open-Source Speech-Stack wird komplett

Zusammen mit Mistrals Voxtral TTS (Text-to-Speech, veroeffentlicht am 26. Maerz 2026) deckt die Open-Source-Community jetzt beide Richtungen der Sprachverarbeitung ab:

Sprache zu Text: Cohere STT (Apache 2.0)
Text zu Sprache: Mistral Voxtral TTS

Beide Modelle laufen auf Consumer-Hardware. Wer einen lokalen Sprach-Stack ohne Cloud-Abhaengigkeit aufbauen will, hat damit erstmals eine vollstaendige Open-Source-Loesung.

Relevanz fuer den Alltag

Whisper ist seit seiner Veroeffentlichung 2022 der De-facto-Standard fuer lokale Transkription. Wer es fuer Meeting-Mitschnitte, Diktate oder Podcast-Transkription einsetzt, hat jetzt eine Alternative, die laut Benchmarks besser abschneidet -- bei aehnlichem Ressourcenbedarf.

Die Einschraenkung auf 14 Sprachen ist fuer deutschsprachige Nutzer relevant: ob Deutsch unterstuetzt wird, sollte vor einem Wechsel geprueft werden. Fuer englischsprachige Transkription ist das Modell ein direkter Whisper-Ersatz.

Quellen

Nach oben