2. April 2026

MemoryCD -- Wie gut erinnern sich LLM-Agenten ueber Domaenen hinweg?

Weizhi Zhang und Kollegen (University of Illinois at Chicago, Amazon) legen mit MemoryCD den ersten gross angelegten Benchmark vor, der langfristige Nutzer-Erinnerung von LLM-Agenten ueber Domaenengrenzen hinweg prueft. Statt synthetischer Personas verwendet der Benchmark echte Nutzerverlaeufe aus Amazon-Reviews ueber mehrere Jahre und 12 Produktkategorien. Das ernuechternde Ergebnis: Keine der getesteten Kombinationen aus Modell und Memory-Methode erreicht zufriedenstellende Personalisierung.

Kernaussagen

Methodik

Die Evaluation laeuft in zwei Settings: Single-Domain (Memory und Testanfragen aus derselben Domaene) und Cross-Domain (Memory aus Books, Electronics und Personal Care, Evaluation auf Home & Kitchen). Alle Memory-Methoden verarbeiten identische Nutzerverlauefe und werden unter kontrollierten Bedingungen verglichen. Die Kontextlaengen variieren systematisch, um den Einfluss der Verlaufslaenge zu isolieren.

Zentrale Ergebnisse im Cross-Domain-Setting (Home & Kitchen): MemoryBank reduziert die Rating-MAE von 0,354 (Long-Context) auf 0,326. LoCoMo hebt NDCG@3 von 0,299 (ohne Memory) auf 0,355. Bei der Generierung erreicht A-Mem ROUGE-L 0,194, MemoryBank 0,206 -- allesamt Werte, die die Autoren als "weit von Nutzerzufriedenheit entfernt" einordnen.

Relevanz fuer die Praxis

MemoryCD liefert drei wichtige Einsichten fuer Teams, die personalisierte LLM-Agenten bauen:

Memory-Methode muss zur Aufgabe passen. Retrieval-basierte Ansaetze wie LoCoMo und Mem0 verbessern Rankings am staerksten (GPT-5 NDCG@1 von 0,146 auf 0,225 mit ReadAgent). Strukturierte Memory-Systeme wie MemoryBank und A-Mem unterstuetzen Textgenerierung besser durch persistente Profilpflege. Ein Produktionssystem braucht also nicht eine universelle Memory-Loesung, sondern aufgabenspezifische Strategien.

Cross-Domain-Memory ist ein offenes Problem. Die Ergebnisse zeigen klar: Naive Aggregation von Nutzerdaten ueber Domaenen hinweg funktioniert nicht zuverlaessig. Semantische Naehe zwischen Quell- und Zieldomaene ist entscheidend. Fuer Empfehlungssysteme und persoenliche Assistenten, die ueber verschiedene Lebensbereiche hinweg arbeiten, fehlt noch eine robuste Loesung.

Laengerer Kontext allein reicht nicht. Der Long-Context-Baseline schneidet bei Rating Prediction ueberraschend kompetitiv ab -- aber das ist die einfachste Aufgabe. Bei komplexeren Personalisierungsaufgaben zeigt sich, dass spezialisierte Memory-Architekturen klar im Vorteil sind. Wer nur auf groessere Kontextfenster setzt, loest das eigentliche Problem nicht.

Quellen

Nach oben