3. März 2026

Beyond Language Modeling -- Metas Weg zu nativem multimodalem Pretraining

Shengbang Tong und Kollegen von FAIR (Meta) und NYU -- unter Beteiligung von Yann LeCun -- haben im Maerz 2026 eine umfassende empirische Studie veroeffentlicht, die den bisherigen Ansatz multimodaler AI-Modelle grundsaetzlich in Frage stellt. Statt Vision nachtraeglich auf ein fertiges Sprachmodell aufzusetzen, trainieren sie Text, Bild und Video von Beginn an gemeinsam.

Kernaussagen

Die Studie liefert vier zentrale Erkenntnisse:

Representation Autoencoders (RAE) sind die beste vereinheitlichte visuelle Repraesentation fuer natives Pretraining. Sie uebertreffen sowohl diskrete Tokenisierung als auch CLIP-basierte Ansaetze, weil sie visuelle Information verlustarm komprimieren und gleichzeitig als Trainingsignal fuer das Modell dienen koennen.
Visuelle und sprachliche Daten sind komplementaer. Gemeinsames Training fuehrt zu Synergie-Effekten -- die Sprachfaehigkeiten verschlechtern sich nicht durch visuelle Daten, sondern profitieren teilweise davon. Umgekehrt verbessert sprachliches Verstaendnis die visuelle Interpretation.
World-Modeling-Faehigkeiten entstehen natuerlich. Modelle, die nativ multimodal trainiert werden, entwickeln ein implizites Verstaendnis physikalischer Zusammenhaenge, das bei reinen Sprachmodellen nicht zu beobachten ist.
Mixture-of-Experts (MoE) ist die passende Architektur. MoE-Modelle spezialisieren ihre Experten automatisch auf verschiedene Modalitaeten. Gleichzeitig gleicht die Architektur die Skalierungs-Asymmetrie zwischen Vision und Sprache aus -- visuelle Daten benoetigen deutlich mehr Rechenkapazitaet pro Token als Text.

Methodik

Die Forscher trainierten Modelle unterschiedlicher Groesse von Grund auf mit gemischten Datensaetzen aus Text, Bildern und Video. Sie variierten systematisch die visuelle Repraesentationsmethode (diskrete Tokens, CLIP-Features, RAE), die Architektur (Dense vs. MoE) und das Mischungsverhaeltnis der Modalitaeten. Alle Varianten wurden auf identischen Benchmarks evaluiert, um den Einfluss jeder einzelnen Designentscheidung isoliert messen zu koennen.

Relevanz fuer die Praxis

Die Studie markiert einen Paradigmenwechsel in der Modellarchitektur. Der bisherige Industriestandard -- erst ein Sprachmodell trainieren, dann Vision draufsetzen -- erreicht offenbar eine Leistungsgrenze. Fuer Teams, die an multimodalen Anwendungen arbeiten, bedeutet das: Die naechste Generation von Foundation Models wird vermutlich nativ multimodal sein, nicht nachgeruestet. Die MoE-Erkenntnis ist ebenfalls praxisrelevant, weil sie zeigt, dass multimodale Modelle nicht proportional mehr Rechenleistung benoetigen -- die Experten-Spezialisierung haelt den Overhead beherrschbar.

Quellen

Beyond Language Modeling -- arXiv

Nach oben