Anthropics Three-Agent Harness: Planner, Generator, Evaluator

4. April 2026

Anthropic hat ein Engineering-Framework vorgestellt, das autonome Softwareentwicklung auf drei spezialisierte Agenten aufteilt -- mit dem Ziel, mehrstuendige Sessions (bis zu 4 Stunden) ohne Qualitaetsverlust zu ermoeglichen.

Die drei Agenten

Planner: Definiert die Aufgabenstruktur und erstellt den Ausfuehrungsplan. Legt Kontext und Ziele fest.

Generator: Erzeugt Code, Designs oder andere Outputs auf Basis der Planer-Direktiven.

Evaluator: Bewertet die Arbeit unabhaengig vom Generator. Nutzt kalibrierte Scoring-Kriterien und Few-Shot-Beispiele, um Outputs gegen definierte Metriken zu pruefen (Design-Qualitaet, Originalitaet, Funktionalitaet). Gibt Feedback zurueck an den Generator.

Warum Drei statt Einer

Das Framework adressiert zwei bekannte Probleme:

Selbstueberschaetzung: Ein einzelner Agent bewertet seinen eigenen Output systematisch zu positiv -- besonders bei subjektiven Aufgaben wie UI-Design. Die Trennung von Generierung und Evaluation erzwingt objektive Kritik.
Kontextverlust: Bei langen Sessions degradiert die Qualitaet, weil der Kontext-Window sich fuellt ("Context Window Amnesia"). Durch strukturierte Uebergaben und definierte Artefakte startet jeder Agent von einem klar definierten Zustand.

Iteration als Kernmechanismus

Die Agenten arbeiten iterativ: Der Generator erzeugt, der Evaluator bewertet, der Generator verbessert. Pro Aufgabe sind 5-15 Zyklen ueblich, bis die Qualitaetsschwelle erreicht ist.

Anwendung in der Praxis

Das Pattern ist direkt uebertragbar auf eigene Agent-Architekturen:

Separation of Concerns: Wer heute einen einzelnen Coding-Agent betreibt, kann durch Aufteilung in Planner/Generator/Evaluator die Qualitaet steigern -- ohne das Modell zu wechseln.
Strukturierte Handoffs: Statt den gesamten Kontext mitzuschleifen, definiert man Artefakte (Plan, Code, Bewertung) als Schnittstellen zwischen den Agenten.
Evaluator als Guardrail: Ein separater Evaluator mit definierten Scoring-Kriterien faengt Qualitaetsprobleme ab, bevor sie in Produktion landen.

Das Muster erinnert an den klassischen Software-Review-Prozess (Entwickler schreibt, Reviewer prueft) -- angewandt auf autonome Agenten.

Quellen

InfoQ: Anthropic's Three-Agent Harness Supports Long-Running Full-Stack AI Development

Nach oben