2. April 2026

LTX 2.3: Open-Source Video-Generierung in 4K mit synchronisiertem Audio

Lightricks hat am 5. Maerz 2026 LTX 2.3 veroeffentlicht -- ein Diffusion-Transformer-Modell (DiT) mit 22 Milliarden Parametern, das Video und Audio gleichzeitig in einem einzigen Forward Pass generiert. Es ist das erste Open-Source-Modell, das natives 4K-Video mit synchronisiertem Audio liefert.

Architektur und Eckdaten

Das Modell basiert auf einer Dual-Stream-Architektur: Rund 14 Milliarden Parameter entfallen auf die Videoverarbeitung, etwa 5 Milliarden auf die Audiogenerierung. Gegenueber dem Vorgaenger LTX 2 (Oktober 2025, ca. 8 Milliarden Parameter) hat Lightricks die Parameteranzahl fast verdreifacht und den temporalen Attention-Mechanismus vollstaendig ueberarbeitet.

Zentrale Kennzahlen:

Aufloesung: Nativ bis 4K
Bildrate: Bis zu 50 FPS (Optionen: 24 oder 48 FPS)
Cliplaenge: Bis zu 20 Sekunden
Audio: Stereo bei 24 kHz, synchron generiert
Portrait-Modus: Natives 9:16 bei 1080x1920

Der native Portrait-Modus ist bemerkenswert. Die meisten Video-Modelle generieren Landscape-Ausgaben und beschneiden diese fuer vertikale Formate -- mit Verlust an Aufloesung und Kontrolle ueber die Komposition. LTX 2.3 komponiert direkt fuer vertikale Formate.

Destillierte Variante: 8 Denoising Steps

Lightricks liefert zwei Varianten auf Hugging Face:

LTX 2.3-22B-dev: Vollmodell in bf16-Praezision, geeignet fuer Fine-Tuning und Forschung. Mindestens 20 Denoising Steps fuer optimale Ergebnisse.
LTX 2.3-22B-distilled: Destillierte Variante mit nur 8 Denoising Steps bei einem Classifier-Free-Guidance-Wert von 1. Deutlich geringerer Speicherbedarf und schnellere Generierung.

Dazu kommen Upscaler-Module: Ein raeumlicher Upscaler (x2 und x1.5) sowie ein temporaler Upscaler (x2) erhoehen Aufloesung und Bildrate in der Nachbearbeitung. Die Pipeline arbeitet sequenziell -- erst raeumlich, dann temporal -- um das typische Problem schoener Einzelbilder bei instabiler Sequenz zu minimieren.

Visuelle und akustische Verbesserungen

Ein ueberarbeiteter Variational Autoencoder (VAE) sorgt fuer merklich schaerfere Ausgaben: Texturen, Gesichtszuege und kleine Objekte behalten Details ueber das gesamte Bild. Die Verbesserung ist besonders bei hohen Aufloesungen sichtbar, wo der Vorgaenger weiche Ergebnisse produzierte.

Ein vierfach vergroesserter Text-Connector verbessert das Prompt-Verstaendnis und reduziert Prompt-Drift bei laengeren Clips. Der ueberarbeitete HiFi-GAN Vocoder liefert sauberere Audioausgabe mit weniger Artefakten -- fuer Atmosphaere und Pacing brauchbar, fuer Lippensynchronisation oder praezise Choreografie aber noch nicht ausreichend.

Hardware-Anforderungen

Die Anforderungen variieren je nach Aufloesung und Quantisierung:

Volle 4K-Generierung: Ca. 44 GB VRAM (fp16)
FP8-quantisiert: Ca. 24 GB VRAM (RTX 4090/5090)
GGUF Q4_K_S: Laeuft auf einer RTX 3080 (10 GB) fuer 960x544-Clips mit Audio in 2-3 Minuten
Cloud: API-Zugang ueber fal.ai verfuegbar

Lizenz und kommerzielle Nutzung

LTX 2.3 steht unter der LTX-2 Community License. Fuer Unternehmen mit weniger als 10 Millionen Dollar Jahresumsatz ist die kommerzielle Nutzung ohne Einschraenkungen moeglich. Groessere kommerzielle Deployments erfordern eine separate Lizenz von Lightricks.

Kontext: OpenAI hat Sora eingestellt

Die Veroeffentlichung faellt in eine Zeit, in der sich das Feld der Video-Generierung grundlegend verschiebt. OpenAI hat Sora Ende Maerz 2026 eingestellt -- sowohl App als auch API. Die Gruende: massiver Compute-Verbrauch ohne ausreichenden Return, guenstigere chinesische Konkurrenten und ein strategischer Pivot hin zu B2B und Coding-Agenten.

Waehrend OpenAI die Video-Generierung aufgibt, liefert Lightricks mit LTX 2.3 ein Open-Source-Modell, das Faehigkeiten bietet, die bisher proprietaeren Systemen vorbehalten waren. Das Muster ist bezeichnend: Closed-Source-Anbieter kaempfen mit der Monetarisierung rechenintensiver Videomodelle, waehrend Open-Source-Alternativen technisch aufschliessen und ueber offene Gewichte sowie permissive Lizenzen zugaenglich werden.

Auf dem Artificial-Analysis-Benchmark rangiert LTX 2.3 als fuehrendes Open-Source-Videomodell und ist laut Herstellerangaben rund 18-mal schneller als Wan 2.2 bei vergleichbarer Qualitaet.

Quellen

LTX 2.3: Lightricks Releases Open-Source 4K Video Model with Native Audio - Cliprise
LTX-2.3: What's New in Lightricks' 22B Video Model (2026) - WaveSpeedAI Blog
LTX-2.3 Open Source Video Generation for AI Engineers - Zen van Riel
Lightricks/LTX-2.3 - Hugging Face
LTX-2.3: Lightricks Upgrades Its Open Source Audio Video Model - AI Films Studio

Nach oben