Agent-Infrastruktur: ByteDances DeerFlow und das Transport-Layer-Problem

8. April 2026

Zwei aktuelle Veroeffentlichungen adressieren unterschiedliche Schichten der Agent-Infrastruktur: ByteDance liefert mit DeerFlow ein neues Orchestrierungs-Framework, waehrend eine Analyse von Netflix zeigt, dass das eigentliche Nadeloehr bei Multi-Turn-Agenten tiefer liegt -- auf der Transportschicht.

DeerFlow: ByteDances Open-Source-Agenten-Framework

ByteDance hat DeerFlow (Deep Exploration and Efficient Research Flow) als Open-Source-Projekt veroeffentlicht. Das Framework basiert auf LangChain und LangGraph und positioniert sich als erweiterbare Plattform fuer komplexe, parallelisierte Agenten-Workflows.

Die zentralen Designentscheidungen:

Sandbox-Isolation: Jeder Sub-Agent laeuft in einer eigenen Umgebung mit separatem Filesystem. Python- und Bash-Ausfuehrung sind sandboxed. Das adressiert ein reales Problem -- OpenClaw hatte gezeigt, was passiert, wenn Agenten ohne Isolation auf dem Host-System operieren.
Sub-Agenten als Prozesse: Separate Prozesse mit eigenen Kontexten, Tools und Abschlussbedingungen. Agenten koennen parallel laufen, ohne sich gegenseitig zu beeinflussen.
Skill-System: Workflows werden ueber Markdown-Dateien definiert und koennen zur Laufzeit dynamisch erweitert werden. Das ist deutlich flexibler als die statischen Workflow-Definitionen von Tools wie n8n oder Dify.
Kontextmanagement: Regelmaessige Zusammenfassung zur Speicheroptimierung plus ein Langzeitgedaechtnis fuer persistente Datenhaltung ueber Konversationen hinweg.

Im Vergleich zu Googles Scion (siehe Multi-Agent-Orchestrierung vom 07.04.) verfolgt DeerFlow einen aehnlichen Isolation-Ansatz, setzt aber auf LangGraph statt auf Container-Laufzeiten. Scion isoliert ueber Docker/Kubernetes, DeerFlow ueber Sandbox-Prozesse. Beide Projekte landen beim selben Prinzip: Isolation auf Infrastrukturebene statt ueber Prompt-Constraints.

GitHub: bytedance/deer-flow

Transport Layer: Das uebersehene Nadeloehr

Anirudh Mendiratta, Staff Engineer fuer Distributed Systems bei Netflix, hat eine Analyse veroeffentlicht, die ein grundlegendes Problem von Multi-Turn-Agent-Systemen quantifiziert: Der HTTP-basierte Transport Layer skaliert nicht.

Das Problem ist strukturell. HTTP-APIs sind zustandslos. Bei jedem Request muss der gesamte bisherige Kontext -- System-Instruktionen, vorherige Modellausgaben, Tool-Ergebnisse -- erneut uebertragen werden. Der Payload waechst linear mit jeder Turn:

Turn	HTTP-Payload	WebSocket-Payload
1	~2 KB	~2 KB
5	~18 KB	~3 KB
10	~38 KB	~4 KB
Gesamt (10 Turns)	~176 KB	~32 KB

Bei Single-Turn-Chats ist das irrelevant. Bei Agenten, die zehn oder mehr Turns mit Tool-Aufrufen ausfuehren, wird es zum Performance-Faktor.

Stateful Continuation als Loesung

Die Idee: Der Server cached den Kontext nach der ersten Turn im Speicher. Folge-Requests senden nur eine Referenz (z.B. previous_response_id) plus die neuen Daten. Die Ergebnisse aus Mendirattas Benchmarks:

Payload-Reduktion: 82-86 Prozent weniger uebertragene Daten
Gesamtausfuehrung: 15-29 Prozent schneller
Time to First Token: 11 Prozent schneller (gemessen mit GPT-5.4)

OpenAI hat diesen Ansatz mit der Responses API und einem WebSocket-Modus (seit Februar 2026) umgesetzt. Anthropic und andere Anbieter nutzen Server-Sent Events (SSE), die aehnliche Vorteile bieten koennen, aber die Zustandsverwaltung anders loesen.

Designentscheidungen

Mendiratta unterscheidet zwei Ansaetze fuer serverseitigen Zustand:

Ephemer: Kontext lebt nur waehrend der Session im Speicher. Einfacher zu implementieren, aber bei Verbindungsabbruch verloren.
Persistent: Kontext wird dauerhaft gespeichert und ist ueber Sessions hinweg abrufbar. Komplexer, aber robust gegen Ausfaelle.

Fuer Agenten-Workflows, die Minuten oder Stunden laufen, ist persistenter Zustand die sinnvollere Wahl -- aber auch die aufwaendigere.

Einordnung

Die beiden Entwicklungen zeigen, dass sich die Agent-Infrastruktur auf mehreren Ebenen gleichzeitig professionalisiert:

Ebene	Entwicklung	Fokus
Framework	DeerFlow	Sandbox-Isolation, parallele Ausfuehrung, Skill-System
Transport	Stateful Continuation	Payload-Reduktion, Latenz, Zustandsverwaltung

Frameworks wie DeerFlow oder Scion loesen das Problem, wie Agenten sicher und parallel laufen. Aber selbst perfekt orchestrierte Agenten laufen langsam, wenn jeder API-Call den gesamten Kontext neu uebertraegt. Die Transport-Layer-Analyse zeigt, dass Optimierungen unterhalb der Anwendungsschicht messbare Auswirkungen haben -- 80 Prozent weniger Traffic und 15-29 Prozent schnellere Ausfuehrung sind nicht trivial.

Quellen

Nach oben