2. April 2026

LTX 2.3: Open-Source Video-Generierung in 4K mit synchronisiertem Audio

Lightricks hat am 5. Maerz 2026 LTX 2.3 veroeffentlicht -- ein Diffusion-Transformer-Modell (DiT) mit 22 Milliarden Parametern, das Video und Audio gleichzeitig in einem einzigen Forward Pass generiert. Es ist das erste Open-Source-Modell, das natives 4K-Video mit synchronisiertem Audio liefert.

Architektur und Eckdaten

Das Modell basiert auf einer Dual-Stream-Architektur: Rund 14 Milliarden Parameter entfallen auf die Videoverarbeitung, etwa 5 Milliarden auf die Audiogenerierung. Gegenueber dem Vorgaenger LTX 2 (Oktober 2025, ca. 8 Milliarden Parameter) hat Lightricks die Parameteranzahl fast verdreifacht und den temporalen Attention-Mechanismus vollstaendig ueberarbeitet.

Zentrale Kennzahlen:

Der native Portrait-Modus ist bemerkenswert. Die meisten Video-Modelle generieren Landscape-Ausgaben und beschneiden diese fuer vertikale Formate -- mit Verlust an Aufloesung und Kontrolle ueber die Komposition. LTX 2.3 komponiert direkt fuer vertikale Formate.

Destillierte Variante: 8 Denoising Steps

Lightricks liefert zwei Varianten auf Hugging Face:

Dazu kommen Upscaler-Module: Ein raeumlicher Upscaler (x2 und x1.5) sowie ein temporaler Upscaler (x2) erhoehen Aufloesung und Bildrate in der Nachbearbeitung. Die Pipeline arbeitet sequenziell -- erst raeumlich, dann temporal -- um das typische Problem schoener Einzelbilder bei instabiler Sequenz zu minimieren.

Visuelle und akustische Verbesserungen

Ein ueberarbeiteter Variational Autoencoder (VAE) sorgt fuer merklich schaerfere Ausgaben: Texturen, Gesichtszuege und kleine Objekte behalten Details ueber das gesamte Bild. Die Verbesserung ist besonders bei hohen Aufloesungen sichtbar, wo der Vorgaenger weiche Ergebnisse produzierte.

Ein vierfach vergroesserter Text-Connector verbessert das Prompt-Verstaendnis und reduziert Prompt-Drift bei laengeren Clips. Der ueberarbeitete HiFi-GAN Vocoder liefert sauberere Audioausgabe mit weniger Artefakten -- fuer Atmosphaere und Pacing brauchbar, fuer Lippensynchronisation oder praezise Choreografie aber noch nicht ausreichend.

Hardware-Anforderungen

Die Anforderungen variieren je nach Aufloesung und Quantisierung:

Lizenz und kommerzielle Nutzung

LTX 2.3 steht unter der LTX-2 Community License. Fuer Unternehmen mit weniger als 10 Millionen Dollar Jahresumsatz ist die kommerzielle Nutzung ohne Einschraenkungen moeglich. Groessere kommerzielle Deployments erfordern eine separate Lizenz von Lightricks.

Kontext: OpenAI hat Sora eingestellt

Die Veroeffentlichung faellt in eine Zeit, in der sich das Feld der Video-Generierung grundlegend verschiebt. OpenAI hat Sora Ende Maerz 2026 eingestellt -- sowohl App als auch API. Die Gruende: massiver Compute-Verbrauch ohne ausreichenden Return, guenstigere chinesische Konkurrenten und ein strategischer Pivot hin zu B2B und Coding-Agenten.

Waehrend OpenAI die Video-Generierung aufgibt, liefert Lightricks mit LTX 2.3 ein Open-Source-Modell, das Faehigkeiten bietet, die bisher proprietaeren Systemen vorbehalten waren. Das Muster ist bezeichnend: Closed-Source-Anbieter kaempfen mit der Monetarisierung rechenintensiver Videomodelle, waehrend Open-Source-Alternativen technisch aufschliessen und ueber offene Gewichte sowie permissive Lizenzen zugaenglich werden.

Auf dem Artificial-Analysis-Benchmark rangiert LTX 2.3 als fuehrendes Open-Source-Videomodell und ist laut Herstellerangaben rund 18-mal schneller als Wan 2.2 bei vergleichbarer Qualitaet.

Quellen

Nach oben