Die Agenten funktionieren, die Koordinations-Schicht nicht
Am 10. April 2026 erscheinen zwei Texte, die denselben Befund zuspitzen. Sreenivasa Reddy Hulebeedu Reddy (ehemals AT&T) veröffentlicht bei InfoWorld den Kommentar "AI agents aren't failing. The coordination layer is failing". Parallel spricht Shane Hastie im InfoQ Engineering Culture Podcast mit Sam Bhagwat (Mitgründer von Mastra) über "Tiger Teams, Evals and Agents: The New AI Engineering Playbook". Gemeinsame These: Die einzelnen Agenten liefern. Was scheitert, ist die Infrastruktur dazwischen -- Koordination, Evaluation, operative Disziplin. Wer Agent-Systeme unter Last fahren will, repariert nicht die Modelle, sondern die Schicht darum herum.
Was die Koordinations-Schicht leisten muss
Reddys Ausgangspunkt ist ein reales Enterprise-Deployment: Inquiry-, Scheduling- und Document-Agent, jeder isoliert stabil. In Produktion dann das Chaos. Der Scheduling-Agent buchte Termine, während der Inquiry-Agent noch Anforderungen sammelte. Der Document-Agent arbeitete mit Kontext aus einer Konversation, die sich zwei Turns weitergedreht hatte. Die End-to-End-Latenz stieg von 200 Millisekunden auf 2,4 Sekunden, weil Agenten über Ad-hoc-API-Calls aufeinander warteten.
Reddys Diagnose: Agenten wie Microservices über Point-to-Point-Calls zu verdrahten skaliert quadratisch. Fünf Agenten brauchen 10 Verbindungen, zehn 45, zwanzig 190 -- jede ein Failure-Point. Weil Agent A den Zustand von Agent B kennen muss, entstehen genau die Kopplungen, die Spezialisierung eigentlich eliminieren sollte.
Seinen Gegenentwurf nennt er "Event Spine":
- Geordnete Event-Streams: Jede Aktion erzeugt ein Event mit globaler Sequenznummer. Agenten rekonstruieren den Systemzustand über den Stream, direkte Statusabfragen entfallen.
- Context Propagation: Jedes Event trägt ein Envelope mit User-Anfrage, Session-State und Deadlines. Der Empfänger hat alles, ohne drei bis fünf Round-Trip-Calls.
- Koordinations-Primitiven: Sequential Handoffs, Dead-Letter-Queues, Timeout-Policies, Fallback-Routing -- bekannte Bausteine aus verteilten Systemen, für Agenten bisher nicht selbstverständlich.
Reddys Zahlen nach dem Umbau: Latenz zurück auf 180 Millisekunden, Agent-bezogene Produktionsvorfälle um 71 Prozent reduziert, Agent-CPU-Last um 36 Prozent gesunken. Aus einem Einzelbericht nicht generalisierbar, aber die strukturelle Aussage ist konsistent: Race Conditions und Context-Staleness sind keine Modellprobleme, sondern Koordinationsprobleme.
Das neue Engineering-Playbook
Der InfoQ-Podcast liefert das komplementäre Bild auf Team- und Prozess-Ebene. Bhagwats These: AI-Engineering folgt dem Adoptionsmuster von DevOps oder Data-Engineering, nur drei- bis viermal schneller. Drei Elemente stechen hervor:
Evals als eigene Tool-Kategorie. Tracing und Evals sind laut Bhagwat "10x wichtiger" als im klassischen Engineering, weil agentische Anwendungen nicht-deterministisch sind -- zwei identische Inputs können zwei gleich valide Antworten produzieren. Generische Evals (Toxicity, Tool-Calling-Accuracy) sind Baseline, der Wert entsteht dort, wo Teams gegen eigene, nicht öffentliche Daten und Domain-Regeln testen. Typisches Vorgehen: Subject Matter Expert liefert einen Fragekatalog, das Team baut Referenzantworten, klassifiziert Failure-Modes und "burnt systematisch Fehlerquellen ab".
Tiger Teams als cross-funktionale Einheit. Die nötigen Skills mappen nicht auf bestehende Org-Strukturen: Data Scientists mit Gefühl für statistische Unsicherheit, aber ohne Production-Erfahrung; Software-Engineers mit Production-Denken, aber ohne Intuition für P95/P99 in Qualitätsmaßen; Produktmanager, die Failure-Modes klassifizieren. Kommando-Kontroll-Organisationen scheitern strukturell daran. Bei erfolgreichen Projekten übernimmt teils der CTO persönlich den Lead -- weil Agent-Projekte derzeit "high risk, high value" sind.
Staged Rollouts mit Feature-Flags. Kein Big-Bang-Release, sondern wochenlanger Rollout: Beta, 1 Prozent, 5, 10, 50. Klassische SRE-Infrastruktur, angewandt auf Agenten. Zusammen mit Tracing-Daten lassen sich Fehlermodi statistisch klassifizieren.
Reddy betont die technische Infrastruktur zwischen Agenten, Bhagwat die organisatorische um sie herum. Beide Ebenen müssen bewusst gebaut werden.
Die Gegenposition
Nicht alle teilen die These. Eine Gegenposition lautet: Viele Fehlermodi sind letztlich Modellschwächen, die bessere Basis-Modelle lösen werden. Der Multi-Agent-Orchestrierungs-Realitätscheck hat argumentiert, dass Scaffolding keine Fähigkeiten erzeugen kann, die das Modell nicht hat. Dazu passt Stella Laurenzos Analyse aus Coding-Agenten in der Zuverlässigkeitskrise: Wenn das Modell Code nicht gründlich liest, hilft kein Event-Bus der Welt.
Die ehrliche Antwort ist wohl: Beides stimmt. Wo ein Agent inhaltlich unfähig ist, hilft Koordination nichts. Aber wo Agenten einzeln funktionieren, verschiebt sich der Flaschenhals nach außen. Context-Staleness, Race Conditions, stille Duplikate und kaskadierende Timeouts sind Symptome fehlender Infrastruktur, nicht schwacher Modelle.
Was Teams heute tun können
- Event-basierte statt direkt-gekoppelte Koordination. Jenseits von drei Agenten lohnt sich die Umstellung auf Event-Streams mit globaler Sequenz. Der Überblick über Multi-Agent-Orchestrierungs-Tools im Wiki liefert den Einstieg inklusive Googles Scion-Testbed.
- Kontext als First-Class-Citizen. Jedes Event trägt das vollständige Envelope. Kein Agent rekonstruiert Kontext über Round-Trips.
- Domain-spezifische Evals vor generischen Benchmarks. Die wertvollen Evals sind die, die kein Modellanbieter schreiben kann. Subject Matter Experts gehören in die erste Iteration.
- Cross-funktionale Tiger Teams mit explizitem Mandat. Engineer, Data Scientist, Produktmanager an einem Tisch -- nicht als Matrix-Nebentätigkeit.
- Staged Rollout mit Tracing. Feature-Flags, Prozent-Stufen, Verteilungsanalyse statt Einzelfall-Fixing.
- Director-Level-Denken statt Prompt-Tuning. Der Cockcroft-Ansatz passt zur These: Wer Schwärme dirigiert, sieht Infrastruktur-Lücken schneller als jemand, der einzelne Prompts feintunt.
Die Debatte ist nicht entschieden, aber der Schwerpunkt verschiebt sich. "Welches Modell ist das beste?" wird abgelöst von "Wie sieht die Infrastruktur aus, die Agenten als System funktionieren lässt?" -- dieselbe Phase, in der Microservices vor zehn Jahren von Service-Calls zu Message-Bussen wechselten. Dass AI-Engineering diese Lektion in Monaten statt Jahren durchläuft, bedeutet vor allem: Man kann schneller falsch abbiegen.
Quellen
- Sreenivasa Reddy Hulebeedu Reddy, "AI agents aren't failing. The coordination layer is failing", InfoWorld, 10. April 2026 -- https://www.infoworld.com/article/4156789/ai-agents-arent-failing-the-coordination-layer-is-failing.html
- Shane Hastie mit Sam Bhagwat, "Tiger Teams, Evals and Agents: The New AI Engineering Playbook", InfoQ Engineering Culture Podcast, 10. April 2026 -- https://www.infoq.com/podcasts/tiger-teams-evals-agents/
- AI-Radar, "Multi-Agent-Orchestrierung: Realitätscheck" -- ../2026-04-02-multi-agent-orchestrierung-check.md
- AI-Radar, "Coding-Agenten in der Zuverlässigkeitskrise" -- ../2026-04-07-coding-agenten-zuverlaessigkeit.md
- AI-Radar, "Cockcroft: Agent-Schwärme dirigieren statt Agenten prompten" -- ../../praxis/workflows/2026-04-02-cockcroft-agent-swarms.md
- AI-Radar, "Multi-Agent-Orchestrierung: Neue Werkzeuge für parallele Agenten" -- ../../stroemungen/standards/2026-04-07-multi-agent-orchestrierung-tools.md