Zwei aktuelle Veroeffentlichungen adressieren unterschiedliche Schichten der Agent-Infrastruktur: ByteDance liefert mit DeerFlow ein neues Orchestrierungs-Framework, waehrend eine Analyse von Netflix zeigt, dass das eigentliche Nadeloehr bei Multi-Turn-Agenten tiefer liegt -- auf der Transportschicht.
DeerFlow: ByteDances Open-Source-Agenten-Framework
ByteDance hat DeerFlow (Deep Exploration and Efficient Research Flow) als Open-Source-Projekt veroeffentlicht. Das Framework basiert auf LangChain und LangGraph und positioniert sich als erweiterbare Plattform fuer komplexe, parallelisierte Agenten-Workflows.
Die zentralen Designentscheidungen:
- Sandbox-Isolation: Jeder Sub-Agent laeuft in einer eigenen Umgebung mit separatem Filesystem. Python- und Bash-Ausfuehrung sind sandboxed. Das adressiert ein reales Problem -- OpenClaw hatte gezeigt, was passiert, wenn Agenten ohne Isolation auf dem Host-System operieren.
- Sub-Agenten als Prozesse: Separate Prozesse mit eigenen Kontexten, Tools und Abschlussbedingungen. Agenten koennen parallel laufen, ohne sich gegenseitig zu beeinflussen.
- Skill-System: Workflows werden ueber Markdown-Dateien definiert und koennen zur Laufzeit dynamisch erweitert werden. Das ist deutlich flexibler als die statischen Workflow-Definitionen von Tools wie n8n oder Dify.
- Kontextmanagement: Regelmaessige Zusammenfassung zur Speicheroptimierung plus ein Langzeitgedaechtnis fuer persistente Datenhaltung ueber Konversationen hinweg.
Im Vergleich zu Googles Scion (siehe Multi-Agent-Orchestrierung vom 07.04.) verfolgt DeerFlow einen aehnlichen Isolation-Ansatz, setzt aber auf LangGraph statt auf Container-Laufzeiten. Scion isoliert ueber Docker/Kubernetes, DeerFlow ueber Sandbox-Prozesse. Beide Projekte landen beim selben Prinzip: Isolation auf Infrastrukturebene statt ueber Prompt-Constraints.
GitHub: bytedance/deer-flow
Transport Layer: Das uebersehene Nadeloehr
Anirudh Mendiratta, Staff Engineer fuer Distributed Systems bei Netflix, hat eine Analyse veroeffentlicht, die ein grundlegendes Problem von Multi-Turn-Agent-Systemen quantifiziert: Der HTTP-basierte Transport Layer skaliert nicht.
Das Problem ist strukturell. HTTP-APIs sind zustandslos. Bei jedem Request muss der gesamte bisherige Kontext -- System-Instruktionen, vorherige Modellausgaben, Tool-Ergebnisse -- erneut uebertragen werden. Der Payload waechst linear mit jeder Turn:
| Turn | HTTP-Payload | WebSocket-Payload |
|---|---|---|
| 1 | ~2 KB | ~2 KB |
| 5 | ~18 KB | ~3 KB |
| 10 | ~38 KB | ~4 KB |
| Gesamt (10 Turns) | ~176 KB | ~32 KB |
Bei Single-Turn-Chats ist das irrelevant. Bei Agenten, die zehn oder mehr Turns mit Tool-Aufrufen ausfuehren, wird es zum Performance-Faktor.
Stateful Continuation als Loesung
Die Idee: Der Server cached den Kontext nach der ersten Turn im Speicher. Folge-Requests senden nur eine Referenz (z.B. previous_response_id) plus die neuen Daten. Die Ergebnisse aus Mendirattas Benchmarks:
- Payload-Reduktion: 82-86 Prozent weniger uebertragene Daten
- Gesamtausfuehrung: 15-29 Prozent schneller
- Time to First Token: 11 Prozent schneller (gemessen mit GPT-5.4)
OpenAI hat diesen Ansatz mit der Responses API und einem WebSocket-Modus (seit Februar 2026) umgesetzt. Anthropic und andere Anbieter nutzen Server-Sent Events (SSE), die aehnliche Vorteile bieten koennen, aber die Zustandsverwaltung anders loesen.
Designentscheidungen
Mendiratta unterscheidet zwei Ansaetze fuer serverseitigen Zustand:
- Ephemer: Kontext lebt nur waehrend der Session im Speicher. Einfacher zu implementieren, aber bei Verbindungsabbruch verloren.
- Persistent: Kontext wird dauerhaft gespeichert und ist ueber Sessions hinweg abrufbar. Komplexer, aber robust gegen Ausfaelle.
Fuer Agenten-Workflows, die Minuten oder Stunden laufen, ist persistenter Zustand die sinnvollere Wahl -- aber auch die aufwaendigere.
Einordnung
Die beiden Entwicklungen zeigen, dass sich die Agent-Infrastruktur auf mehreren Ebenen gleichzeitig professionalisiert:
| Ebene | Entwicklung | Fokus |
|---|---|---|
| Framework | DeerFlow | Sandbox-Isolation, parallele Ausfuehrung, Skill-System |
| Transport | Stateful Continuation | Payload-Reduktion, Latenz, Zustandsverwaltung |
Frameworks wie DeerFlow oder Scion loesen das Problem, wie Agenten sicher und parallel laufen. Aber selbst perfekt orchestrierte Agenten laufen langsam, wenn jeder API-Call den gesamten Kontext neu uebertraegt. Die Transport-Layer-Analyse zeigt, dass Optimierungen unterhalb der Anwendungsschicht messbare Auswirkungen haben -- 80 Prozent weniger Traffic und 15-29 Prozent schnellere Ausfuehrung sind nicht trivial.
Quellen
- DeerFlow: Super-Agenten-Framework von ByteDance (heise online)
- bytedance/deer-flow (GitHub)
- Stateful Continuation for AI Agents: Why the Transport Layer Now Matters (InfoQ)
- Benchmark-Code: agentic-coding-websocket (GitHub)