8. April 2026

Vatche Isahagian, Vinod Muthusamy, Jayaram Radhakrishnan, Gaodan Fang, Punleuk Oum und G Thomas von IBM Research stellen ALTK-Evolve vor, ein Framework fuer kontinuierliches Lernen bei AI-Agenten. Das Paper erschien am 8. April 2026 auf ArXiv.

Das Kernproblem: Die meisten AI-Agenten sind "ewige Praktikanten". Sie lesen fruehere Interaktionsprotokolle erneut, extrahieren aber keine verallgemeinerbaren Prinzipien daraus. Eine MIT-Studie beziffert die Konsequenz -- 95% aller AI-Agenten-Pilotprojekte scheitern, weil Agenten sich nicht an ihre Arbeitsumgebung anpassen.

Kernaussagen

Methodik

ALTK-Evolve arbeitet als bidirektionale Schleife zwischen Beobachtung und Anwendung:

Abwaertsfluss (Extraktion): Das System erfasst vollstaendige Agenten-Trajektorien ueber eine Observability-Schicht (Langfuse, OpenTelemetry). Pluggable Extractors identifizieren strukturelle Muster in den Traces und persistieren sie als Kandidaten-Entitaeten.

Aufwaertsfluss (Verfeinerung): Ein Hintergrundprozess konsolidiert Duplikate, bewertet bewaehrte Strategien hoeher und entfernt schwache Regeln. Beim naechsten Agenten-Lauf injiziert ein Just-in-Time-Retrieval nur die relevanten Richtlinien in den Kontext -- kein Vollstaendiges Kontextstuffing.

Drei Designprinzipien halten das System schlank: Das Scoring kontrolliert den Noise, die progressive Offenlegung vermeidet Kontextueberflutung, und die Abstraktion von Einzelereignissen zu portablen Strategien ermoeglicht Transfer zwischen verschiedenen Aufgabentypen.

Die Evaluation nutzt den AppWorld-Benchmark mit Scenario Goal Completion als Metrik -- ein strenges Konsistenzmass, das Erfolg ueber alle Varianten einer Aufgabe verlangt. Getestet wurde ein ReAct-Agent, dem die fuenf relevantesten Guidelines pro Task bereitgestellt wurden.

Relevanz fuer die Praxis

ALTK-Evolve adressiert ein reales Problem im Unternehmenseinsatz von AI-Agenten: den fehlenden Lernfortschritt ueber Sessions hinweg. Drei Integrationsoptionen staffeln den Aufwand:

Die staerkste Implikation ist die Skalierung mit Komplexitaet: Je schwieriger die Aufgabe, desto groesser der Vorteil durch komprimierte Erfahrung. Fuer Teams, die Agenten auf mehrstufigen Workflows einsetzen (im Benchmark durchschnittlich 9.5 API-Aufrufe ueber 1.8 Apps), ist das relevant.

Einschraenkung: Die Ergebnisse stammen von einem einzelnen Benchmark. Ob die Generalisierung auf reale Enterprise-Umgebungen mit hoeherer Varianz uebertraegt, ist noch offen.

Quellen

Nach oben