Alibabas Tongyi Lab hat mit VimRAG ein multimodales RAG-Framework veröffentlicht, das gezielt das Problem adressiert, wie Agenten über große Mengen visueller Daten hinweg konsistent reasoning betreiben können. Statt die Interaktionshistorie linear anzuhängen oder in eine komprimierte Textzusammenfassung zu pressen, baut VimRAG während des Reasonings einen dynamischen Multimodal Memory Graph auf und steuert Token-Budgets, Retrieval-Aktionen und Policy-Gradienten entlang dieser Graphstruktur. Der Ansatz ist deutlich strukturierter als klassisches Vektor-RAG und rückt multimodales Retrieval näher an deterministische, nachvollziehbare Memory-Architekturen heran.
Das Problem mit Vector-RAG bei visuellen Inhalten
Die meisten heutigen RAG-Agenten folgen einem Thought-Action-Observation-Loop (ReAct) und haengen die komplette Historie an den Kontext an. Bei Text funktioniert das passabel, bei Bildern, Layouts oder Videos nicht mehr: visuelle Beobachtungen sind token-schwer und semantisch duenn relativ zur konkreten Frage. Die Dichte kritischer Informationen relativ zur Gesamthistorie läuft mit jedem Reasoning-Schritt gegen null.
Die naheliegende Alternative, iterative Zusammenfassung, hat einen anderen Defekt: Markovian Blindness. Der Agent vergisst, welche Queries er bereits gestellt hat, und wiederholt sich in Multi-Hop-Szenarien. In einer Pilotstudie mit Qwen3VL-30B-A3B auf einem Video-Korpus zeigten sowohl ReAct als auch Summarization-Agenten dieses Muster, während eine graphbasierte Memory die redundanten Such-Aktionen deutlich reduzierte.
Eine zweite Pilotstudie verglich vier Cross-Modality-Memory-Strategien. Reines Pre-Captioning (Text-zu-Text, 0,9k Tokens) erreichte nur 14,5% auf Bild- und 17,2% auf Video-Tasks. Rohes Ablegen der Vision-Tokens (15,8k Tokens) brachte 45,6% bzw. 30,4%, das Rauschen übertönt aber das Signal. Context-aware Captioning lieferte 52,8% und 39,5%, verliert aber Details für Verifikation. Am besten schnitt die gezielte Auswahl relevanter Vision-Tokens ab ("Semantically-Related Visual Memory", 2,7k Tokens, 58,2% und 43,7%) -- und genau diesen Ansatz übernimmt VimRAG.
Wie der Memory Graph funktioniert
Der Reasoning-Prozess wird als dynamischer gerichteter azyklischer Graph G_t(V_t, E_t) modelliert. Jeder Knoten v_i enthält ein Tupel (p_i, q_i, s_i, m_i):
- p_i -- Parent-Knoten-Indizes, die die lokale Abhängigkeitsstruktur kodieren
- q_i -- die zerlegte Sub-Query für diesen Retrieval-Schritt
- s_i -- eine kompakte textuelle Zusammenfassung
- m_i -- ein multimodaler episodischer Memory-Bank mit Vision-Tokens aus den abgerufenen Dokumenten oder Video-Frames
Die Policy samplet in jedem Schritt aus drei Aktionstypen: a_ret startet exploratives Retrieval und hängt einen neuen Knoten an den Graph, a_mem führt die multimodale Wahrnehmung aus und füllt Knoten mit einer Coarse-to-Fine-Saliency-Maske und einem semantischen Score zwischen 1 und 5, a_ans terminiert die Trajektorie, sobald genug Evidenz im Graph steht. Für Video-Beobachtungen extrahiert a_mem über das Temporal Grounding von Qwen3-VL zeitstempel-aligned Keyframes, bevor der Knoten befüllt wird.
Die zweite Komponente, Graph-Modulated Visual Memory Encoding, behandelt die Token-Zuteilung als Ressourcenallokation. Jedes Vision-Item bekommt eine intrinsische Energie, die aus semantischer Priorität, Out-Degree des Knotens (als Proxy für strukturelle Relevanz) und einem Temporal-Decay-Term gebildet wird. Darauf addiert sich eine rekursive Verstärkung durch die Nachfolgeknoten, sodass frühe Knoten, die späteres High-Value-Reasoning stützen, ihre Auflösung behalten. Das globale Token-Budget (S_total = 5 x 256 x 32 x 32) wird proportional zur Energie verteilt.
Die dritte Komponente ist Graph-Guided Policy Optimization (GGPO). Eine Pilotstudie zur Credit Assignment zeigte, dass in erfolgreichen Trajektorien rund 80% der Schritte Rauschen enthalten, das bei standardmäßigem Outcome-RL fälschlich positiven Gradient bekommt -- und dass sich die Performance negativer Trajektorien vollständig wiederherstellen lässt, wenn man redundante Schritte ausmaskiert. GGPO nutzt die Graphstruktur genau dafür: Dead-End-Knoten außerhalb des Pfads zum Antwortknoten werden in positiven Samples maskiert, wertvolle Retrieval-Schritte in negativen Samples ebenfalls. Die Konvergenz ist laut Ablation stabiler und schneller als bei GSPO ohne Pruning.
Benchmarks
VimRAG wurde auf neun Benchmarks evaluiert, die in einem einheitlichen Korpus mit rund 200k interleavten multimodalen Items zusammengefasst wurden: HotpotQA, SQuAD, WebQA, SlideVQA, MMLongBench, LVBench, WikiHowQA, SyntheticQA sowie XVBench, ein neuer Cross-Video-Benchmark, den das Team aus HowTo100M konstruiert hat. Als Embedding-Modell für Text-, Bild- und Video-Retrieval dient GVE-7B.
| Modell | VimRAG | Mem1 (Baseline) |
|---|---|---|
| Qwen3-VL-8B-Instruct, Overall | 50,1 | 43,6 |
| Qwen3-VL-4B-Instruct, Overall | 45,2 | 40,6 |
| SlideVQA (8B) | 62,4 | 55,7 |
| SyntheticQA (8B) | 54,5 | 43,4 |
Interessant ist, dass VimRAG trotz des zusätzlichen Perception-Schritts kürzere Trajektorien erzeugt als ReAct oder Mem1 -- der strukturierte Memory-Graph verhindert das wiederholte Nachschlagen und die ungültigen Folgesuchen, die lineare Methoden in einen langen Token-Tail treiben.
Einordnung
VimRAG steht im gleichen Trend wie das Hierarchical Agentic RAG-Protokoll: Beide Arbeiten geben die Vorstellung auf, dass sich anspruchsvolles Retrieval mit einer flachen Vektor-Suche und einer linearen Interaktionshistorie lösen lässt. Während der hierarchische Ansatz die Orchestrierung strukturiert (Supervisor-Worker-Topologie, Retry-Knoten zur Fehlerkorrektur), strukturiert VimRAG die Memory selbst -- der Reasoning-Zustand wird zum Graphen mit explizierbarer Abhängigkeitsstruktur, und sowohl Retrieval als auch RL-Credit-Assignment folgen diesem Graph.
Bemerkenswert ist, dass Tongyi Lab die Graphstruktur konsequent bis in die Trainingsschleife zieht. GGPO ist keine reine Inference-Optimierung, sondern sorgt dafür, dass das Modell bereits während des Post-Trainings lernt, den Graph effizient zu nutzen. Das ist ein qualitativer Unterschied zu RAG-Ansätzen, die nur am Pipeline-Ende Policies drüberlegen.
Praxis-Bezug
Für Teams, die multimodale RAG-Systeme bauen, sind drei Punkte konkret übertragbar:
- Nicht alle Vision-Tokens sind gleich wichtig. Die Pilotstudie zeigt einen klaren Pareto-Punkt: selektives Retaining relevanter Vision-Tokens (~2,7k) schlägt sowohl reines Captioning (0,9k, zu wenig Information) als auch naives Speichern aller Tokens (15,8k, zu viel Rauschen). Wer heute ein multimodales RAG baut, sollte nicht blind die Embeddings dumpen.
- Strukturierte Memory schlägt lineare Historie bei Multi-Hop. Sobald mehrere Retrieval-Schritte über unterschiedliche Quellen notwendig sind, verliert der klassische ReAct-Loop schnell den Überblick. Ein explizit verwalteter Graph (auch ohne vollständige VimRAG-Implementierung) loest redundante Suchen.
- Video-Retrieval braucht Temporal Grounding. VimRAG delegiert die Frame-Auswahl an die Temporal-Grounding-Fähigkeit von Qwen3-VL und spart damit massiv Tokens gegenüber Uniform-Sampling. Für eigene Pipelines ist ein Keyframe-Selektor mit Timestamp-Alignment praktisch Pflicht, sobald Videos ins Spiel kommen.
Das Framework ist laut MarkTechPost inklusive Paper, Repository und Model Weights verfügbar. Kombiniert mit einem offenen VLM-Backbone wie Qwen3-VL ist damit zum ersten Mal ein komplett reproduzierbarer Stack für graphbasiertes multimodales RAG zugänglich -- was für Alibaba strategisch passt, weil es den Qwen3-VL-Ökosystemwert erhöht, ohne ein proprietäres Produkt zu schaffen.