MemoryCD -- Wie gut erinnern sich LLM-Agenten ueber Domaenen hinweg?
Weizhi Zhang und Kollegen (University of Illinois at Chicago, Amazon) legen mit MemoryCD den ersten gross angelegten Benchmark vor, der langfristige Nutzer-Erinnerung von LLM-Agenten ueber Domaenengrenzen hinweg prueft. Statt synthetischer Personas verwendet der Benchmark echte Nutzerverlaeufe aus Amazon-Reviews ueber mehrere Jahre und 12 Produktkategorien. Das ernuechternde Ergebnis: Keine der getesteten Kombinationen aus Modell und Memory-Methode erreicht zufriedenstellende Personalisierung.
Kernaussagen
-
Echte Nutzerdaten statt synthetischer Szenarien. MemoryCD basiert auf dem Amazon Reviews 2023-Datensatz. Nutzer mit 50 bis 1.000 Sessions werden ueber 12 Domaenen hinweg getrackt (Arts & Crafts, Automotive, Beauty, Books, Electronics, Grocery, Health, Home & Kitchen, Movies, Office, Personal Care, Sports). Die Kontextlaengen reichen von 11K bis 387K Tokens -- realistisch fuer langlebige Agenten.
-
14 LLMs und 6 Memory-Methoden im Vergleich. Getestet werden GPT-5 (Nano, Mini, Standard), Claude 4 (Opus, Sonnet), Gemini 2.5 (Flash, Pro) und weitere Varianten. Die Memory-Methoden umfassen Long-Context (voller Verlauf), LoCoMo (semantischer Retrieval), Mem0 (strukturierte Faktenextraktion), ReadAgent (Episodic-Gist-Lookup), MemoryBank (evolutionaere Nutzerprofile) und A-Mem (Zettelkasten-inspirierte Wissensgraphen).
-
Vier Personalisierungsaufgaben. Rating Prediction (MAE, RMSE), Item Ranking (NDCG@K), Review Summarization (ROUGE-L, BLEU-1) und Review Generation (ROUGE-L, BLEU-1). Diese Breite deckt sowohl Entscheidungsaufgaben als auch Textgenerierung ab.
-
Kein Ansatz dominiert universell. GPT-5 fuehrt bei Entscheidungsaufgaben (niedrigste Rating-MAE von 0,330 in Books, bestes Ranking in Electronics mit NDCG@3 von 0,604). Gemini 2.5 Pro dominiert bei Textgenerierung (ROUGE-L 0,162 in Books). Aber: Verbesserungen beim Rating uebertragen sich nicht auf Generierungsqualitaet.
-
Cross-Domain-Transfer ist fragil. Electronics-Erinnerungen transferieren gut zu Home & Kitchen (MAE von 0,43 auf 0,30 mit GPT-5). Books-Erinnerungen erzeugen in fremden Domaenen hingegen Rauschen. Naive Aggregation aller Domaenen verbessert Rankings, verschlechtert aber fehlerbasierte Metriken durch konfligierende Praeferenzsignale.
Methodik
Die Evaluation laeuft in zwei Settings: Single-Domain (Memory und Testanfragen aus derselben Domaene) und Cross-Domain (Memory aus Books, Electronics und Personal Care, Evaluation auf Home & Kitchen). Alle Memory-Methoden verarbeiten identische Nutzerverlauefe und werden unter kontrollierten Bedingungen verglichen. Die Kontextlaengen variieren systematisch, um den Einfluss der Verlaufslaenge zu isolieren.
Zentrale Ergebnisse im Cross-Domain-Setting (Home & Kitchen): MemoryBank reduziert die Rating-MAE von 0,354 (Long-Context) auf 0,326. LoCoMo hebt NDCG@3 von 0,299 (ohne Memory) auf 0,355. Bei der Generierung erreicht A-Mem ROUGE-L 0,194, MemoryBank 0,206 -- allesamt Werte, die die Autoren als "weit von Nutzerzufriedenheit entfernt" einordnen.
Relevanz fuer die Praxis
MemoryCD liefert drei wichtige Einsichten fuer Teams, die personalisierte LLM-Agenten bauen:
Memory-Methode muss zur Aufgabe passen. Retrieval-basierte Ansaetze wie LoCoMo und Mem0 verbessern Rankings am staerksten (GPT-5 NDCG@1 von 0,146 auf 0,225 mit ReadAgent). Strukturierte Memory-Systeme wie MemoryBank und A-Mem unterstuetzen Textgenerierung besser durch persistente Profilpflege. Ein Produktionssystem braucht also nicht eine universelle Memory-Loesung, sondern aufgabenspezifische Strategien.
Cross-Domain-Memory ist ein offenes Problem. Die Ergebnisse zeigen klar: Naive Aggregation von Nutzerdaten ueber Domaenen hinweg funktioniert nicht zuverlaessig. Semantische Naehe zwischen Quell- und Zieldomaene ist entscheidend. Fuer Empfehlungssysteme und persoenliche Assistenten, die ueber verschiedene Lebensbereiche hinweg arbeiten, fehlt noch eine robuste Loesung.
Laengerer Kontext allein reicht nicht. Der Long-Context-Baseline schneidet bei Rating Prediction ueberraschend kompetitiv ab -- aber das ist die einfachste Aufgabe. Bei komplexeren Personalisierungsaufgaben zeigt sich, dass spezialisierte Memory-Architekturen klar im Vorteil sind. Wer nur auf groessere Kontextfenster setzt, loest das eigentliche Problem nicht.