Vatche Isahagian, Vinod Muthusamy, Jayaram Radhakrishnan, Gaodan Fang, Punleuk Oum und G Thomas von IBM Research stellen ALTK-Evolve vor, ein Framework fuer kontinuierliches Lernen bei AI-Agenten. Das Paper erschien am 8. April 2026 auf ArXiv.
Das Kernproblem: Die meisten AI-Agenten sind "ewige Praktikanten". Sie lesen fruehere Interaktionsprotokolle erneut, extrahieren aber keine verallgemeinerbaren Prinzipien daraus. Eine MIT-Studie beziffert die Konsequenz -- 95% aller AI-Agenten-Pilotprojekte scheitern, weil Agenten sich nicht an ihre Arbeitsumgebung anpassen.
Kernaussagen
- ALTK-Evolve wandelt rohe Agenten-Traces (Nutzereingaben, Gedankenketten, Tool-Aufrufe, Ergebnisse) in wiederverwendbare Guidelines, Policies und Standard Operating Procedures (SOPs) um.
- Auf dem AppWorld-Benchmark steigt die Scenario Goal Completion (SGC) aggregiert um 8.9 Prozentpunkte (50.0% auf 58.9%). Bei schwierigen Tasks betraegt der Zugewinn 14.2 Prozentpunkte -- eine relative Steigerung von 74%.
- Die Verbesserungen treten auf ungesehenen Tasks auf. Das System generalisiert, statt auswendig zu lernen.
- SGC-Gewinne uebertreffen die reinen Pass-Rate-Verbesserungen, was auf hoehere Konsistenz ueber Aufgabenvarianten hinweg hindeutet -- weniger "flaky" Verhalten.
Methodik
ALTK-Evolve arbeitet als bidirektionale Schleife zwischen Beobachtung und Anwendung:
Abwaertsfluss (Extraktion): Das System erfasst vollstaendige Agenten-Trajektorien ueber eine Observability-Schicht (Langfuse, OpenTelemetry). Pluggable Extractors identifizieren strukturelle Muster in den Traces und persistieren sie als Kandidaten-Entitaeten.
Aufwaertsfluss (Verfeinerung): Ein Hintergrundprozess konsolidiert Duplikate, bewertet bewaehrte Strategien hoeher und entfernt schwache Regeln. Beim naechsten Agenten-Lauf injiziert ein Just-in-Time-Retrieval nur die relevanten Richtlinien in den Kontext -- kein Vollstaendiges Kontextstuffing.
Drei Designprinzipien halten das System schlank: Das Scoring kontrolliert den Noise, die progressive Offenlegung vermeidet Kontextueberflutung, und die Abstraktion von Einzelereignissen zu portablen Strategien ermoeglicht Transfer zwischen verschiedenen Aufgabentypen.
Die Evaluation nutzt den AppWorld-Benchmark mit Scenario Goal Completion als Metrik -- ein strenges Konsistenzmass, das Erfolg ueber alle Varianten einer Aufgabe verlangt. Getestet wurde ein ReAct-Agent, dem die fuenf relevantesten Guidelines pro Task bereitgestellt wurden.
Relevanz fuer die Praxis
ALTK-Evolve adressiert ein reales Problem im Unternehmenseinsatz von AI-Agenten: den fehlenden Lernfortschritt ueber Sessions hinweg. Drei Integrationsoptionen staffeln den Aufwand:
- No-Code: Plugin-Installation fuer Claude Code, Codex oder IBM Bob. Guidelines werden als Dateien im Dateisystem abgelegt. Einschraenkung: keine Session-uebergreifende Konsolidierung.
- Low-Code: Python-Integration ueber altk_evolve.auto fuer bestehende Agent-Stacks (OpenAI, LiteLLM, Hugging Face). Traces laufen ueber Arize Phoenix.
- Pro-Code: MCP-Integration mit zwei Tools (get_guidelines, save_trajectory) fuer enge Feedback-Schleifen.
Die staerkste Implikation ist die Skalierung mit Komplexitaet: Je schwieriger die Aufgabe, desto groesser der Vorteil durch komprimierte Erfahrung. Fuer Teams, die Agenten auf mehrstufigen Workflows einsetzen (im Benchmark durchschnittlich 9.5 API-Aufrufe ueber 1.8 Apps), ist das relevant.
Einschraenkung: Die Ergebnisse stammen von einem einzelnen Benchmark. Ob die Generalisierung auf reale Enterprise-Umgebungen mit hoeherer Varianz uebertraegt, ist noch offen.