Cockcroft: Agent-Schwaerme dirigieren statt Agenten prompten
Adrian Cockcroft -- bekannt als Architekt der Netflix-Migration auf AWS und Wegbereiter von Microservices und DevOps -- beschreibt in einer InfoQ-Praesentation seinen Ansatz, Coding-Agenten nicht einzeln zu steuern, sondern als Schwarm zu dirigieren. Cockcroft ist seit 2022 im Ruhestand und nutzt AI-Tools fuer eigene Projekte. Eine RSI-Erkrankung hatte ihm jahrelang das Programmieren erschwert; AI-Agenten haben ihm den Zugang zur aktiven Softwareentwicklung zurueckgegeben.
Von Cloud-Native zu AI-Native
Cockcroft zieht eine direkte Parallele: So wie Cloud-Native die Infrastrukturbereitstellung zentralisiert hat, zentralisiert AI-Native die Code-Erzeugung. Statt ueber Monate Entwickler einzustellen, spawnt er in Minuten mehrere Agent-Entwickler. Seine These: Organisationen verschieben sich von Application Developers zu Platform Engineers. Plattform-Teams bauen nicht mehr Cloud-Plattformen, sondern Entwicklungsplattformen mit Policies, Security-Guardrails und vorgefertigten Komponenten. Produktmanager nutzen diese Plattformen, um Agent-Schwaerme fuer Features zu starten.
Das ist eine strukturelle Umkehrung: Agenten uebernehmen die Anwendungsentwicklung, Menschen pflegen die Plattform.
Der Director-Level-Ansatz
Das zentrale Konzept: Nicht einzelne Codezeilen reviewen, sondern wie ein Director Ergebnisse bewerten und iterieren. Der Ablauf:
- Anforderungen klar definieren
- Agenten arbeiten lassen
- Ergebnisse pruefen
- Iterieren und korrigieren
- Code-Qualitaet durch Agenten als Reviewer sicherstellen
Cockcrofts Beobachtung: Agenten liefern in 15 Minuten mehrere Tage Arbeit, brauchen aber staendiges Nachfassen. Die Anweisung, 100 Prozent der Tests auszufuehren, muss wiederholt eingefordert werden. Agenten verhalten sich wie unterdurchschnittliche menschliche Entwickler -- sie liefern erst bei konsequenter Fuehrung.
Das deckt sich mit Birgitta Boeckelers Konzept des Harness Engineering: Die Strukturen muessen den Agenten in die richtige Richtung zwingen, weil man sich auf freiwillige Gruendlichkeit nicht verlassen kann. Cockcrofts Director-Ansatz ist das menschliche Komplement zum automatisierten Geschirr -- er fuellt die Luecken, die Tests und CI/CD nicht abdecken.
Toolchain: Cursor, Claude Flow, Codespaces
Cursor ist sein Hauptwerkzeug fuer Data Science und Analytik. Die 200-Dollar-Version verhindert, dass Token-Limits mitten in der Aufgabe greifen. Einzelne Agenten-Threads machen den Fortschritt sichtbar.
Claude Flow (von Reuven Cohen) setzt mehrere Claude-Instanzen mit spezialisierten MCP-Servern ein: Coder, Tester, Architekten, DevOps-Agenten und eine "Hive Queen" als Managerin. Die Agenten kommunizieren ueber Shared Memory und To-Do-Listen, entwickeln parallel und reviewen gegenseitig ihren Code.
Codespaces laufen ueber GitHub-verlinkte Azure-Container. Cockcroft nutzt den Modus "dangerously skip permissions", aber in isolierten Containern -- eine pragmatische Loesung fuer sichere Agent-Ausfuehrung zu 20 Dollar im Monat.
Gesamtkosten: rund 225 Dollar monatlich fuer eine Entwicklungskapazitaet, die er mit "enterprise-grade" beschreibt.
Claude Flow und der Multi-Agent-Realitaetscheck
Cockcrofts Erfahrungen mit Claude Flow sind ein interessantes Gegengewicht zum Realitaetscheck Multi-Agent-Orchestrierung. Die dort beschriebenen Probleme -- Koordinationsoverhead, Kontextkollisionen, explodierende Kosten -- treten bei ihm ebenfalls auf. Seine Loesung: Arbeit ueber separate Repositories partitionieren, statt mehrere Agenten auf dieselbe Codebasis loszulassen. Monolithen werden in Repos mit klaren APIs aufgeteilt. Das reduziert Kontextkollisionen, loest aber nicht das fundamentale Problem, dass Scaffolding keine neuen Modellfaehigkeiten erzeugen kann.
Der Unterschied zu den im Realitaetscheck beschriebenen Szenarien: Cockcroft arbeitet als Einzelperson mit ueberschaubaren Projekten und hoher Fehlertoleranz. Fuer Enterprise-Teams mit geringer Fehlertoleranz gelten andere Regeln.
BDD: Behaviour Driven Development als Agent-Steuerung
Cockcrofts staerkster praktischer Hebel ist BDD. Die Given-When-Then-Struktur gibt Agenten klarere Direktiven als klassische Unit-Tests:
- Phase 1: BDD-Tests mit gemockten Backends (Unit-Level)
- Phase 2: Dieselben BDD-Tests gegen Live-Systeme (Integration-Level)
Das Ergebnis: deutlich hoehere Qualitaet. Der Python-BDD-Code bleibt ohne zusaetzliche Dokumentation lesbar. Cockcrofts provokante These: Mit einer guten BDD-Spezifikation kann man die gesamte Codebasis loeschen und neu generieren lassen.
Das ist eine radikale Variante von Fowlers Intent-Debt-Konzept: BDD-Specs als maschinenlesbare Absichtserklaerung, die sowohl Menschen als auch Agenten verstehen. Wer BDD konsequent einsetzt, reduziert Intent Debt auf nahe null -- zumindest fuer die spezifizierten Verhaltensweisen.
MCP-Server: Wissen verpacken und verteilen
Cockcroft baut MCP-Server als Wissenspakete, die Agenten bei Bedarf anzapfen:
- Persona-Server: Seine gesamten Netflix- und Cloud-Inhalte, abfragbar ueber lokale LLMs
- MeGPT: Ein generisches Framework, das beliebige Autoreninhalte in MCP-Server umwandelt
- Brazilian Football Graph: Wissensgraph mit Teams, Spielern, Statistiken fuer Demos
- House Consciousness: Wissensgraph fuer IoT-Geraete, Handbuecher, Raumzuweisungen
Seine Philosophie: Jedes komplexe Domainwissen laesst sich als MCP-Server verpacken und einem Agenten zur Verfuegung stellen. Der Agent findet selbst heraus, wie er den Server nutzt.
Language Porting: Wo Agenten glaenzen
Sprachmigration ist ein Bereich, in dem Agenten messbar produktiv sind:
- R nach Python: Komplexe Analysescripte in fuenf Minuten konvertiert
- TypeScript/JavaScript nach Python: 150.000 Zeilen, 80 bis 90 Prozent abgeschlossen, alle Tests konvertiert
- Swift: Native iOS-Apps (Wetter, HomeKit, Text-to-Speech) als funktionierende Prototypen
Python liefert die hoechste Ersterfolgrate mit den wenigsten Syntaxfehlern. Cockcrofts Methode: Tests zuerst in der Zielsprache schreiben, dann die Implementierung generieren lassen. Das ist Test-Driven Porting.
Context Blocks: Agent-Gedaechtnis simulieren
Ein pragmatischer Trick gegen wiederkehrende Agent-Fehler: Am Anfang jeder Datei ein 100 bis 200 Zeilen langer Kommentarblock mit:
- Was der Code tut
- Welche APIs verwendet werden
- Versionshistorie
- Bekannte Probleme
Wenn Agenten Dateien erneut lesen, absorbieren sie diesen Kontext, bevor sie in den Code eintauchen. Das verhindert, dass Agenten bereits behobene Bugs wieder einfuehren oder in Endlosschleifen geraten.
Konkrete Zahlen
| Metrik | Wert |
|---|---|
| Einfache Scripts | 15 Minuten bis funktionierender Code |
| House-Consciousness-System | 150.000 Zeilen Python an einem Tag |
| Swift-View-Refactoring | Von 900 auf 300 Zeilen durch Agent-Review |
| Python-Performance | Von 30 Sekunden auf 2 Sekunden Laufzeit |
| Knowledge-Graph-Server | 225 Tests, OWASP-Top-10-Audit automatisiert |
| Monatliche Kosten | ca. 225 Dollar (Cursor + Codespaces) |
Praktische Konsequenz
Cockcrofts Ansatz ist kein Multi-Agent-Hype. Es ist die Beschreibung eines erfahrenen Infrastruktur-Architekten, der Agent-Schwaerme mit denselben Prinzipien steuert, die er bei Netflix fuer verteilte Systeme angewandt hat: klare Schnittstellen, isolierte Ausfuehrung, automatisiertes Feedback.
Drei Dinge, die sofort uebertragbar sind:
- BDD als Agent-Steuerung: Given-When-Then-Specs sind praeziser als natuerlichsprachliche Prompts und dienen gleichzeitig als Regressionstests.
- Arbeit partitionieren: Mehrere Agenten arbeiten besser auf getrennten Repos als auf derselben Codebasis. Klare API-Grenzen statt geteilter Dateien.
- Context Blocks pflegen: Datei-Header mit Kontext, APIs und Known Issues reduzieren Agent-Schleifen und verhindern Regressionen.
Cockcrofts eigene Einschaetzung zur Zeitleiste: Was heute experimentelle Einzelpraxis ist, wird in fuenf bis sieben Jahren Standard-Enterprise-Pattern sein. Seine Warnung: Wer nicht kontinuierlich mit diesen Tools experimentiert, verpasst den Anschluss -- die Kosten sinken quartalsweise um eine Groessenordnung.
Quellen
- Directing a Swarm of Agents for Fun and Profit | Adrian Cockcroft, InfoQ (2026)