LTX 2.3: Open-Source Video-Generierung in 4K mit synchronisiertem Audio
Lightricks hat am 5. Maerz 2026 LTX 2.3 veroeffentlicht -- ein Diffusion-Transformer-Modell (DiT) mit 22 Milliarden Parametern, das Video und Audio gleichzeitig in einem einzigen Forward Pass generiert. Es ist das erste Open-Source-Modell, das natives 4K-Video mit synchronisiertem Audio liefert.
Architektur und Eckdaten
Das Modell basiert auf einer Dual-Stream-Architektur: Rund 14 Milliarden Parameter entfallen auf die Videoverarbeitung, etwa 5 Milliarden auf die Audiogenerierung. Gegenueber dem Vorgaenger LTX 2 (Oktober 2025, ca. 8 Milliarden Parameter) hat Lightricks die Parameteranzahl fast verdreifacht und den temporalen Attention-Mechanismus vollstaendig ueberarbeitet.
Zentrale Kennzahlen:
- Aufloesung: Nativ bis 4K
- Bildrate: Bis zu 50 FPS (Optionen: 24 oder 48 FPS)
- Cliplaenge: Bis zu 20 Sekunden
- Audio: Stereo bei 24 kHz, synchron generiert
- Portrait-Modus: Natives 9:16 bei 1080x1920
Der native Portrait-Modus ist bemerkenswert. Die meisten Video-Modelle generieren Landscape-Ausgaben und beschneiden diese fuer vertikale Formate -- mit Verlust an Aufloesung und Kontrolle ueber die Komposition. LTX 2.3 komponiert direkt fuer vertikale Formate.
Destillierte Variante: 8 Denoising Steps
Lightricks liefert zwei Varianten auf Hugging Face:
- LTX 2.3-22B-dev: Vollmodell in bf16-Praezision, geeignet fuer Fine-Tuning und Forschung. Mindestens 20 Denoising Steps fuer optimale Ergebnisse.
- LTX 2.3-22B-distilled: Destillierte Variante mit nur 8 Denoising Steps bei einem Classifier-Free-Guidance-Wert von 1. Deutlich geringerer Speicherbedarf und schnellere Generierung.
Dazu kommen Upscaler-Module: Ein raeumlicher Upscaler (x2 und x1.5) sowie ein temporaler Upscaler (x2) erhoehen Aufloesung und Bildrate in der Nachbearbeitung. Die Pipeline arbeitet sequenziell -- erst raeumlich, dann temporal -- um das typische Problem schoener Einzelbilder bei instabiler Sequenz zu minimieren.
Visuelle und akustische Verbesserungen
Ein ueberarbeiteter Variational Autoencoder (VAE) sorgt fuer merklich schaerfere Ausgaben: Texturen, Gesichtszuege und kleine Objekte behalten Details ueber das gesamte Bild. Die Verbesserung ist besonders bei hohen Aufloesungen sichtbar, wo der Vorgaenger weiche Ergebnisse produzierte.
Ein vierfach vergroesserter Text-Connector verbessert das Prompt-Verstaendnis und reduziert Prompt-Drift bei laengeren Clips. Der ueberarbeitete HiFi-GAN Vocoder liefert sauberere Audioausgabe mit weniger Artefakten -- fuer Atmosphaere und Pacing brauchbar, fuer Lippensynchronisation oder praezise Choreografie aber noch nicht ausreichend.
Hardware-Anforderungen
Die Anforderungen variieren je nach Aufloesung und Quantisierung:
- Volle 4K-Generierung: Ca. 44 GB VRAM (fp16)
- FP8-quantisiert: Ca. 24 GB VRAM (RTX 4090/5090)
- GGUF Q4_K_S: Laeuft auf einer RTX 3080 (10 GB) fuer 960x544-Clips mit Audio in 2-3 Minuten
- Cloud: API-Zugang ueber fal.ai verfuegbar
Lizenz und kommerzielle Nutzung
LTX 2.3 steht unter der LTX-2 Community License. Fuer Unternehmen mit weniger als 10 Millionen Dollar Jahresumsatz ist die kommerzielle Nutzung ohne Einschraenkungen moeglich. Groessere kommerzielle Deployments erfordern eine separate Lizenz von Lightricks.
Kontext: OpenAI hat Sora eingestellt
Die Veroeffentlichung faellt in eine Zeit, in der sich das Feld der Video-Generierung grundlegend verschiebt. OpenAI hat Sora Ende Maerz 2026 eingestellt -- sowohl App als auch API. Die Gruende: massiver Compute-Verbrauch ohne ausreichenden Return, guenstigere chinesische Konkurrenten und ein strategischer Pivot hin zu B2B und Coding-Agenten.
Waehrend OpenAI die Video-Generierung aufgibt, liefert Lightricks mit LTX 2.3 ein Open-Source-Modell, das Faehigkeiten bietet, die bisher proprietaeren Systemen vorbehalten waren. Das Muster ist bezeichnend: Closed-Source-Anbieter kaempfen mit der Monetarisierung rechenintensiver Videomodelle, waehrend Open-Source-Alternativen technisch aufschliessen und ueber offene Gewichte sowie permissive Lizenzen zugaenglich werden.
Auf dem Artificial-Analysis-Benchmark rangiert LTX 2.3 als fuehrendes Open-Source-Videomodell und ist laut Herstellerangaben rund 18-mal schneller als Wan 2.2 bei vergleichbarer Qualitaet.
Quellen
- LTX 2.3: Lightricks Releases Open-Source 4K Video Model with Native Audio - Cliprise
- LTX-2.3: What's New in Lightricks' 22B Video Model (2026) - WaveSpeedAI Blog
- LTX-2.3 Open Source Video Generation for AI Engineers - Zen van Riel
- Lightricks/LTX-2.3 - Hugging Face
- LTX-2.3: Lightricks Upgrades Its Open Source Audio Video Model - AI Films Studio