Alibaba hat Qwen3.5-Omni veroeffentlicht, ein omnimodales Modell, das Text, Bilder, Audio und Video in einer einzigen Architektur verarbeitet. Das Modell schlaegt laut Alibabas eigenen Benchmarks Googles Gemini 3.1 Pro bei Audio-Aufgaben.
Emergente Faehigkeit: Code aus Sprache und Video
Das eigentlich Bemerkenswerte an Qwen3.5-Omni ist nicht die Multimodalitaet selbst -- die ist inzwischen erwartbar. Bemerkenswert ist, was das Modell kann, ohne dafuer trainiert worden zu sein: Es schreibt Code aus gesprochenen Anweisungen kombiniert mit Videomaterial. Ein Nutzer beschreibt verbal, was er will, zeigt per Video den Kontext -- und das Modell generiert funktionierenden Code.
Diese Faehigkeit war nicht Teil des Trainingsziels. Sie ist emergent entstanden, als Nebenprodukt der multimodalen Architektur.
Warum das relevant ist
Emergente Faehigkeiten sind in der AI-Forschung seit Jahren ein Diskussionsthema, typischerweise bei reinen Sprachmodellen. Dass sie jetzt auch bei multimodalen Modellen auftreten -- und zwar in einer praktisch nützlichen Form -- hat Implikationen fuer die Modellentwicklung insgesamt. Es wird schwieriger vorherzusagen, was ein Modell kann, wenn seine Faehigkeiten nicht mehr vollstaendig aus dem Training ableitbar sind.
Fuer die Praxis heisst das: Multimodale Modelle koennten in naher Zukunft Workflows ermoeglichen, an die heute noch niemand denkt -- nicht weil sie dafuer gebaut wurden, sondern weil sie sich von selbst ergeben.
Quellen
- Alibaba releases Qwen3.5-Omni with emergent coding ability from speech and video - The Decoder, 2026-04-01