3. April 2026

RAG mit Vector-Datenbanken dominiert die Diskussion um AI-Wissensmanagement. Aber es gibt inzwischen mehrere Ansaetze, die das Problem fundamental anders angehen -- von dateibasierten Patterns bis hin zu spezialisierten Memory-Frameworks.

Googles Memory Agent Pattern statt Vector DBs

Ein Towards Data Science Artikel beschreibt, wie der Autor seine Obsidian-Notizen statt mit einer Vector-Datenbank ueber Googles Memory Agent Pattern durchsuchbar gemacht hat. Der Kernunterschied: Statt Dokumente in Embedding-Vektoren umzuwandeln und per Cosine-Similarity abzufragen, organisiert ein Agent das Wissen aktiv in strukturierten Dateien.

Der Memory Agent: - Liest neue Informationen und entscheidet, wo sie hingehoeren - Erstellt und pflegt thematische Index-Dateien - Konsolidiert Wissen ueber die Zeit (aehnlich dem autoDream-Muster aus dem Claude Code Leak) - Nutzt das Dateisystem selbst als Wissensspeicher, nicht eine separate Datenbank

Der Vorteil: Das Wissen bleibt in einem Format, das Menschen lesen und bearbeiten koennen. Kein Vendor-Lock-in an eine Vector-DB, keine undurchsichtigen Embeddings. Der Nachteil: Es skaliert schlechter bei sehr grossen Datenmengen und erfordert Agent-Compute fuer die Organisation.

Mintlifys Virtual Filesystem statt RAG

Mintlify beschreibt einen anderen Ansatz fuer ihren Dokumentations-Assistenten: Statt Dokumente zu chunken und in eine Vector-DB zu laden, haben sie ein virtuelles Dateisystem gebaut, das die gesamte Dokumentation als navigierbare Verzeichnisstruktur abbildet.

Der AI-Assistent kann: - Verzeichnisse auflisten und nach Themen navigieren - Gezielt Dateien oeffnen statt aus einem flachen Chunk-Pool zu retrieven - Die hierarchische Struktur der Dokumentation nutzen, um Kontext zu verstehen

Das Ergebnis ist praeziser als RAG, weil der Agent die Struktur der Information versteht, nicht nur deren semantische Naehe. Mintlify berichtet von deutlich besserer Antwortqualitaet gegenueber ihrem frueheren RAG-Ansatz.

Die drei Schichten von Agent Memory

Unabhaengig vom konkreten Ansatz laesst sich Agent Memory in drei Schichten gliedern:

Short-Term Memory (Arbeitskontext): Der aktive Konversationspuffer im Context Window des Modells. Wird nach jeder Session geloescht. Forschung zeigt, dass die Performance ab ca. 50.000 Tokens durch "Attention Dilution" nachlaeesst -- groessere Context Windows (Claudes 200K, Geminis 2M Tokens) sind Arbeitsspeicher, kein Langzeitgedaechtnis.

Long-Term Memory (Persistenter Speicher): Informationen, die sitzungsuebergreifend erhalten bleiben. Drei Unterkategorien: - Episodisches Gedaechtnis: Komprimierte Zusammenfassungen vergangener Interaktionen - Semantisches Gedaechtnis: Extrahierte atomare Fakten (Praeferenzen, gelernte Muster) - Prozedurales Gedaechtnis: Gelernte Workflows und Entscheidungsmuster

Retrieval Bridge: Der Mechanismus, der entscheidet, welche Erinnerungen vor jeder Interaktion ins Context Window injiziert werden. Funktioniert wie RAG, aber angewendet auf die Konversationshistorie statt auf Dokumente.

Retrieval-Strategien

Drei Ansaetze, um relevante Erinnerungen auszuwaehlen:

Struktur statt Aehnlichkeit: Dateibasierte Ansaetze

Die beiden oben beschriebenen Ansaetze (Memory Agent Pattern, Virtual Filesystem) teilen eine Einsicht: Struktur schlaegt Aehnlichkeit. Vector-basiertes RAG findet "aehnliche" Inhalte, aber versteht nicht die Organisation des Wissens. Datei- und verzeichnisbasierte Ansaetze bewahren die Struktur, die Menschen dem Wissen gegeben haben.

Fuer die Praxis bedeutet das: Bevor man automatisch eine Vector-Datenbank aufsetzt, lohnt es sich zu pruefen, ob die vorhandene Dateistruktur nicht der bessere Wissensspeicher ist -- besonders fuer AI-Agenten, die ohnehin mit Dateisystemen umgehen koennen.

Memory-Frameworks in der Praxis

Mem0 (48K GitHub Stars): Das verbreitetste Framework. Konvertiert Konversationen in atomare Fakten, dedupliziert gegen existierende Erinnerungen, aktualisiert oder loescht veraltete Informationen. In Tests 92% weniger Latenz gegenueber dem Full-Context-Ansatz (1,44 vs. 17 Sekunden).

Letta: Agent-gemanagtes Memory, bei dem das LLM selbst entscheidet, was befoeordert, archiviert oder geloescht wird. Platz 1 auf dem Terminal-Bench Coding-Benchmark. Erfordert allerdings die Uebernahme des gesamten Frameworks.

Hindsight: Erreicht 91,4% Genauigkeit auf LongMemEval gegenueber Mem0s 49,0% (gleicher Benchmark). Nutzt kombinierte Retrieval-Strategien.

Claude Code: Implementiert strukturiertes Memory mit Initializer-Agents, die Kontext setzen, Progress Logs fuehren und Feature-Checklisten ueber mehrere Sessions hinweg pflegen. "Auto Dream" konsolidiert Memory-Dateien zwischen Sessions, um Rauschen zu verhindern.

Herausforderungen in Produktion

Quellen

Nach oben