29. März 2026

Naver Seoul World Model: Video-KI mit echten Geodaten gegen Halluzinationen

Der südkoreanische Internetkonzern Naver hat ein sogenanntes "Seoul World Model" vorgestellt -- ein Video-Weltmodell, das auf realen Street-View-Aufnahmen trainiert wurde. Der Ansatz unterscheidet sich grundlegend von gängigen generativen Videomodellen, die Stadtszenen aus statistischen Mustern synthetisieren und dabei häufig geometrisch inkonsistente oder schlicht erfundene Umgebungen erzeugen.

Was ist das Seoul World Model

Ein Weltmodell im KI-Kontext bezeichnet ein Modell, das eine interne Repräsentation physikalischer oder räumlicher Zusammenhänge aufbaut und darauf basierend plausible Zustandsübergänge vorhersagen oder simulieren kann. Das Seoul World Model ist speziell für urbane Umgebungen ausgelegt: Es wurde auf über einer Million echten Street-View-Bildern aus Seoul trainiert und lernt damit die tatsächliche Stadtgeometrie -- Straßenführungen, Gebäudeproportionen, räumliche Tiefenstruktur.

Grounding in realer Stadtgeometrie

Der entscheidende Unterschied zu rein generativen Ansätzen liegt im Grounding. Statt einer Wahrscheinlichkeitsverteilung über pixelbasierte Muster liegt dem Modell reale Geodaten zugrunde. Das Modell halluziniert keine Städte, weil es Städte kennt -- zumindest Seoul im Trainingsprozess. Die erzeugten Video-Sequenzen bleiben geometrisch konsistent und orientieren sich an realen räumlichen Verhältnissen.

Dieser Ansatz adressiert ein bekanntes Problem generativer Videomodelle: Je komplexer und strukturierter die darzustellende Szene, desto häufiger entstehen räumlich inkonsistente Ausgaben -- Gebäude ohne Fundament, Straßen ohne Verlauf, Perspektivfehler in Bewegungssequenzen.

Generalisierung ohne Fine-Tuning

Besonders bemerkenswert ist die Transferleistung des Modells: Es generalisiert auf andere Städte, ohne gezielt auf deren Daten nachtrainiert zu werden. Das deutet darauf hin, dass das Modell keine stadtspezifischen Texturen oder Stile memoriert, sondern allgemeinere geometrische Prinzipien urbaner Räume gelernt hat -- Prinzipien, die über Seoul hinaus gültig sind.

Das ist keine Selbstverständlichkeit. Viele geografische KI-Modelle scheitern an der Übertragbarkeit, weil sie stark auf den Eigenheiten ihrer Trainingsdaten überfitten.

Warum dieser Ansatz relevant ist

Das Halluzinationsproblem bei generativer Video-KI ist nicht trivial lösbar. Mehr Trainingsdaten und größere Modelle reduzieren es, eliminieren es aber nicht. Naver verfolgt hier eine andere Strategie: physikalisch fundiertes Grounding statt schiere Skalierung. Das Seoul World Model ist ein Beleg dafür, dass domänenspezifische Realweltdaten -- in diesem Fall Street-View-Geodaten -- einen qualitativ anderen Beitrag leisten können als synthetisch generierte oder undifferenziert zusammengekratzte Webdaten.

Für Anwendungsfälle wie autonomes Fahren, robotische Navigation oder Stadtplanung ist ein Modell, das reale Geometrie kennt statt sie zu erfinden, praktisch relevant.

Naver als unterschätzter asiatischer KI-Akteur

Naver ist in Europa kaum präsent, in Südkorea aber die dominante Suchmaschine und einer der größten Technologiekonzerne des Landes. Das Unternehmen betreibt mit Naver Labs eine eigene KI-Forschungsabteilung und hat in den letzten Jahren wiederholt solide Grundlagenforschung veröffentlicht -- unter anderem im Bereich Sprachmodelle (HyperCLOVA) und visuelle KI.

Das Seoul World Model reiht sich ein in eine Reihe von KI-Projekten asiatischer Konzerne, die außerhalb ihrer Heimatmärkte wenig Aufmerksamkeit erhalten, methodisch aber auf Augenhöhe mit westlichen Labors operieren.

Quellen

The Decoder: Naver's Seoul World Model uses actual Street View data to stop AI from hallucinating entire cities

Nach oben