ALTK-Evolve: On-the-Job Learning fuer AI-Agenten

8. April 2026

Vatche Isahagian, Vinod Muthusamy, Jayaram Radhakrishnan, Gaodan Fang, Punleuk Oum und G Thomas von IBM Research stellen ALTK-Evolve vor, ein Framework fuer kontinuierliches Lernen bei AI-Agenten. Das Paper erschien am 8. April 2026 auf ArXiv.

Das Kernproblem: Die meisten AI-Agenten sind "ewige Praktikanten". Sie lesen fruehere Interaktionsprotokolle erneut, extrahieren aber keine verallgemeinerbaren Prinzipien daraus. Eine MIT-Studie beziffert die Konsequenz -- 95% aller AI-Agenten-Pilotprojekte scheitern, weil Agenten sich nicht an ihre Arbeitsumgebung anpassen.

Kernaussagen

ALTK-Evolve wandelt rohe Agenten-Traces (Nutzereingaben, Gedankenketten, Tool-Aufrufe, Ergebnisse) in wiederverwendbare Guidelines, Policies und Standard Operating Procedures (SOPs) um.
Auf dem AppWorld-Benchmark steigt die Scenario Goal Completion (SGC) aggregiert um 8.9 Prozentpunkte (50.0% auf 58.9%). Bei schwierigen Tasks betraegt der Zugewinn 14.2 Prozentpunkte -- eine relative Steigerung von 74%.
Die Verbesserungen treten auf ungesehenen Tasks auf. Das System generalisiert, statt auswendig zu lernen.
SGC-Gewinne uebertreffen die reinen Pass-Rate-Verbesserungen, was auf hoehere Konsistenz ueber Aufgabenvarianten hinweg hindeutet -- weniger "flaky" Verhalten.

Methodik

ALTK-Evolve arbeitet als bidirektionale Schleife zwischen Beobachtung und Anwendung:

Abwaertsfluss (Extraktion): Das System erfasst vollstaendige Agenten-Trajektorien ueber eine Observability-Schicht (Langfuse, OpenTelemetry). Pluggable Extractors identifizieren strukturelle Muster in den Traces und persistieren sie als Kandidaten-Entitaeten.

Aufwaertsfluss (Verfeinerung): Ein Hintergrundprozess konsolidiert Duplikate, bewertet bewaehrte Strategien hoeher und entfernt schwache Regeln. Beim naechsten Agenten-Lauf injiziert ein Just-in-Time-Retrieval nur die relevanten Richtlinien in den Kontext -- kein Vollstaendiges Kontextstuffing.

Drei Designprinzipien halten das System schlank: Das Scoring kontrolliert den Noise, die progressive Offenlegung vermeidet Kontextueberflutung, und die Abstraktion von Einzelereignissen zu portablen Strategien ermoeglicht Transfer zwischen verschiedenen Aufgabentypen.

Die Evaluation nutzt den AppWorld-Benchmark mit Scenario Goal Completion als Metrik -- ein strenges Konsistenzmass, das Erfolg ueber alle Varianten einer Aufgabe verlangt. Getestet wurde ein ReAct-Agent, dem die fuenf relevantesten Guidelines pro Task bereitgestellt wurden.

Relevanz fuer die Praxis

ALTK-Evolve adressiert ein reales Problem im Unternehmenseinsatz von AI-Agenten: den fehlenden Lernfortschritt ueber Sessions hinweg. Drei Integrationsoptionen staffeln den Aufwand:

No-Code: Plugin-Installation fuer Claude Code, Codex oder IBM Bob. Guidelines werden als Dateien im Dateisystem abgelegt. Einschraenkung: keine Session-uebergreifende Konsolidierung.
Low-Code: Python-Integration ueber altk_evolve.auto fuer bestehende Agent-Stacks (OpenAI, LiteLLM, Hugging Face). Traces laufen ueber Arize Phoenix.
Pro-Code: MCP-Integration mit zwei Tools (get_guidelines, save_trajectory) fuer enge Feedback-Schleifen.

Die staerkste Implikation ist die Skalierung mit Komplexitaet: Je schwieriger die Aufgabe, desto groesser der Vorteil durch komprimierte Erfahrung. Fuer Teams, die Agenten auf mehrstufigen Workflows einsetzen (im Benchmark durchschnittlich 9.5 API-Aufrufe ueber 1.8 Apps), ist das relevant.

Einschraenkung: Die Ergebnisse stammen von einem einzelnen Benchmark. Ob die Generalisierung auf reale Enterprise-Umgebungen mit hoeherer Varianz uebertraegt, ist noch offen.

Quellen

Nach oben