Anthropic hat ein Engineering-Framework vorgestellt, das autonome Softwareentwicklung auf drei spezialisierte Agenten aufteilt -- mit dem Ziel, mehrstuendige Sessions (bis zu 4 Stunden) ohne Qualitaetsverlust zu ermoeglichen.
Die drei Agenten
Planner: Definiert die Aufgabenstruktur und erstellt den Ausfuehrungsplan. Legt Kontext und Ziele fest.
Generator: Erzeugt Code, Designs oder andere Outputs auf Basis der Planer-Direktiven.
Evaluator: Bewertet die Arbeit unabhaengig vom Generator. Nutzt kalibrierte Scoring-Kriterien und Few-Shot-Beispiele, um Outputs gegen definierte Metriken zu pruefen (Design-Qualitaet, Originalitaet, Funktionalitaet). Gibt Feedback zurueck an den Generator.
Warum Drei statt Einer
Das Framework adressiert zwei bekannte Probleme:
-
Selbstueberschaetzung: Ein einzelner Agent bewertet seinen eigenen Output systematisch zu positiv -- besonders bei subjektiven Aufgaben wie UI-Design. Die Trennung von Generierung und Evaluation erzwingt objektive Kritik.
-
Kontextverlust: Bei langen Sessions degradiert die Qualitaet, weil der Kontext-Window sich fuellt ("Context Window Amnesia"). Durch strukturierte Uebergaben und definierte Artefakte startet jeder Agent von einem klar definierten Zustand.
Iteration als Kernmechanismus
Die Agenten arbeiten iterativ: Der Generator erzeugt, der Evaluator bewertet, der Generator verbessert. Pro Aufgabe sind 5-15 Zyklen ueblich, bis die Qualitaetsschwelle erreicht ist.
Anwendung in der Praxis
Das Pattern ist direkt uebertragbar auf eigene Agent-Architekturen:
- Separation of Concerns: Wer heute einen einzelnen Coding-Agent betreibt, kann durch Aufteilung in Planner/Generator/Evaluator die Qualitaet steigern -- ohne das Modell zu wechseln.
- Strukturierte Handoffs: Statt den gesamten Kontext mitzuschleifen, definiert man Artefakte (Plan, Code, Bewertung) als Schnittstellen zwischen den Agenten.
- Evaluator als Guardrail: Ein separater Evaluator mit definierten Scoring-Kriterien faengt Qualitaetsprobleme ab, bevor sie in Produktion landen.
Das Muster erinnert an den klassischen Software-Review-Prozess (Entwickler schreibt, Reviewer prueft) -- angewandt auf autonome Agenten.