2. April 2026

Eigenen Coding-Agenten bauen: Was zwischen Agent-Loop und Claude Code liegt

Die Grundidee eines Coding-Agenten ist schnell implementiert: eine While-Schleife, die ein LLM aufruft, Tools ausfuehrt und iteriert. Victor Dibia (Microsoft, Autor von PicoAgents) zeigt in seinem Blogpost, warum diese naive Loop fuer realistische Aufgaben nicht ausreicht -- und was konkret fehlt.

Das Problem der naiven Loop

Ein Prompt wie "Refaktorisiere das Authentifizierungssystem auf JWT" klingt nach einer einzelnen Anweisung. In der Praxis erfordert er: Dateien finden, Implementierungen lesen, Aenderungen planen, mehrere Dateien editieren, Tests laufen lassen, Fehler beheben. Das sind 20-40 Iterationen. Jede Iteration fuegt Tool-Aufrufe und deren Ergebnisse zum Kontext hinzu. Bei einer naiven Loop explodiert der Kontext, der Agent bricht frueh ab, und man hat keine Sichtbarkeit darueber, was passiert ist.

Drei Erweiterungen machen den Unterschied zwischen Spielzeug und Werkzeug.

1. Die richtigen Tools

Nicht die Menge der Tools ist entscheidend, sondern deren Zuschnitt auf Code-Arbeit. Dibia identifiziert vier Cluster:

Exploration: Read (Dateiinhalte mit Zeilennummern), Glob (Mustersuche ueber Dateibaeume), Grep (Inhaltssuche per Regex), LS (Verzeichnisse auflisten). Diese Tools bilden die Augen des Agenten.

Modifikation: Write (Dateien erstellen/ueberschreiben), Edit (exakte String-Ersetzung, erfordert Eindeutigkeit), Bash (Shell-Kommandos mit Timeout). Die Haende des Agenten.

Koordination: Task (Sub-Agenten fuer abgegrenzte Teilaufgaben starten), TodoWrite (strukturierte Aufgabenlisten fuehren). Das Gedaechtnis und die Planung.

Interaktion: WebFetch, WebSearch, AskUserQuestion. Die Verbindung nach aussen.

Entscheidend sind die Design-Patterns hinter den Tools:

Output-Begrenzung: Ein naives ls -la auf einem grossen Verzeichnis schiebt tausende Zeilen in den Kontext. Jeder Token davon wird bei jedem folgenden LLM-Aufruf mitgeschleppt. Gute Tools kappen den Output und liefern Exit-Codes.
Eindeutigkeitspruefung: Ein Edit-Tool, das bei nicht-eindeutigen Treffern einen Fehler zurueckgibt statt die falsche Stelle zu aendern, verhindert eine ganze Klasse von Bugs.
Strukturierte Fehlermeldungen: "File not found: config.py" statt eines Stack-Traces -- das Modell braucht klare Signale, was es anders machen soll.

Wer Claude Code nutzt, kennt diese Tools bereits aus der taeglichen Arbeit (siehe auch Claude Code Tipps fuer den Alltag). Der Blogpost macht explizit, warum sie genau so geschnitten sind.

2. Middlewares und Hooks

Middlewares fangen einzelne Tool- und Modell-Aufrufe ab. Sie loggen Token-Verbrauch, blockieren gefaehrliche Kommandos (rm -rf) oder modifizieren Parameter. Hooks dagegen steuern die Agent-Loop selbst an zwei Stellen:

Start-Hooks injizieren Instruktionen vor dem ersten LLM-Aufruf -- etwa die Anweisung, zunaechst einen Plan zu erstellen und als TodoList zu fuehren.

End-Hooks pruefen, ob der Agent wirklich fertig ist. Die interessanteste Variante nutzt ein separates LLM als Richter: Es bewertet anhand der tatsaechlichen Tool-Aufrufe und Ergebnisse (nicht anhand der Behauptungen des Agenten), ob die Aufgabe abgeschlossen ist. Wenn nicht, wird der Agent mit einer Nachricht zurueckgeschickt. Ein MaxRestartsTermination-Mechanismus verhindert Endlosschleifen.

Dibia nennt das Zusammenspiel "kognitive Ausdauer" -- die Faehigkeit, lange Aufgaben durchzuhalten statt beim ersten natuerlichen Pausenpunkt aufzuhoeren.

3. Context Management

Die dritte Erweiterung ist die kritischste. Ohne Context Management laeuft ein Agent mit 20+ Iterationen unweigerlich in die Kontextgrenze.

Compaction reduziert den Nachrichtenverlauf. Die einfachste Strategie (HeadTail) behaelt Anfang (Systemprompt, Aufgabe) und Ende (aktuelle Arbeit), verwirft die Mitte. Kein zusaetzlicher LLM-Aufruf noetig. Benchmarks zeigen eine Token-Reduktion von 56-70%.

Aber: Zu aggressive Compaction schadet. Bei einem Budget von 8.000 Token erreichten Agenten nur 4,0 von 10 Punkten gegenueber 6,0 ohne Compaction. Sie verloren den Ueberblick ueber bereits gelesene Dateien und verschwendeten 55% der Leseoperationen auf Duplikate. Faustregeln aus dem Artikel:

Budget auf das 2-3-fache des typischen Working Sets dimensionieren
Wenn die Duplikat-Leserate 15% uebersteigt, Budget erhoehen
Compaction-Budget festlegen, bevor Completion-Hooks hinzugefuegt werden -- Hooks koennen das Problem verschaerfen

Context-Isolation ueber Sub-Agenten verhindert, dass Kontext ueberhaupt erst akkumuliert. Ein Koordinator-Agent startet Sub-Agenten fuer abgegrenzte Teilaufgaben, jeder mit eigenem Kontextfenster. Nur das Ergebnis fliesst zurueck -- das gleiche Muster, das Claude Code mit seinem Task-Tool implementiert.

Einordnung

Der Blogpost ist keine Anleitung fuer ein bestimmtes Framework. Die beschriebenen Muster -- fokussierte Tool-Sets, Loop-Kontrolle durch Hooks, Context-Reduktion -- tauchen in LangGraph, Googles ADK, Microsofts Agent Framework und dem Claude Agent SDK gleichermassen auf. Die Implementierungsdetails unterscheiden sich, die Architekturmuster sind identisch.

Fuer Teams, die ueber die Nutzung fertiger Coding-Agenten hinaus eigene Agenten bauen oder bestehende erweitern wollen, liefert der Artikel eine klare Checkliste. Fuer alle anderen macht er transparent, warum Claude Code, Copilot Agent und Cursor unter der Haube so gebaut sind, wie sie gebaut sind.

Quellen

Building Your Own Claude Code from Scratch | Victor Dibia (April 2026)
PicoAgents | GitHub Repository
How Claude Code works | Claude Code Docs

Nach oben