4. April 2026

Anthropic hat ein Engineering-Framework vorgestellt, das autonome Softwareentwicklung auf drei spezialisierte Agenten aufteilt -- mit dem Ziel, mehrstuendige Sessions (bis zu 4 Stunden) ohne Qualitaetsverlust zu ermoeglichen.

Die drei Agenten

Planner: Definiert die Aufgabenstruktur und erstellt den Ausfuehrungsplan. Legt Kontext und Ziele fest.

Generator: Erzeugt Code, Designs oder andere Outputs auf Basis der Planer-Direktiven.

Evaluator: Bewertet die Arbeit unabhaengig vom Generator. Nutzt kalibrierte Scoring-Kriterien und Few-Shot-Beispiele, um Outputs gegen definierte Metriken zu pruefen (Design-Qualitaet, Originalitaet, Funktionalitaet). Gibt Feedback zurueck an den Generator.

Warum Drei statt Einer

Das Framework adressiert zwei bekannte Probleme:

  1. Selbstueberschaetzung: Ein einzelner Agent bewertet seinen eigenen Output systematisch zu positiv -- besonders bei subjektiven Aufgaben wie UI-Design. Die Trennung von Generierung und Evaluation erzwingt objektive Kritik.

  2. Kontextverlust: Bei langen Sessions degradiert die Qualitaet, weil der Kontext-Window sich fuellt ("Context Window Amnesia"). Durch strukturierte Uebergaben und definierte Artefakte startet jeder Agent von einem klar definierten Zustand.

Iteration als Kernmechanismus

Die Agenten arbeiten iterativ: Der Generator erzeugt, der Evaluator bewertet, der Generator verbessert. Pro Aufgabe sind 5-15 Zyklen ueblich, bis die Qualitaetsschwelle erreicht ist.

Anwendung in der Praxis

Das Pattern ist direkt uebertragbar auf eigene Agent-Architekturen:

Das Muster erinnert an den klassischen Software-Review-Prozess (Entwickler schreibt, Reviewer prueft) -- angewandt auf autonome Agenten.

Quellen

Nach oben