8. April 2026

Zwei aktuelle Veroeffentlichungen adressieren unterschiedliche Schichten der Agent-Infrastruktur: ByteDance liefert mit DeerFlow ein neues Orchestrierungs-Framework, waehrend eine Analyse von Netflix zeigt, dass das eigentliche Nadeloehr bei Multi-Turn-Agenten tiefer liegt -- auf der Transportschicht.

DeerFlow: ByteDances Open-Source-Agenten-Framework

ByteDance hat DeerFlow (Deep Exploration and Efficient Research Flow) als Open-Source-Projekt veroeffentlicht. Das Framework basiert auf LangChain und LangGraph und positioniert sich als erweiterbare Plattform fuer komplexe, parallelisierte Agenten-Workflows.

Die zentralen Designentscheidungen:

Im Vergleich zu Googles Scion (siehe Multi-Agent-Orchestrierung vom 07.04.) verfolgt DeerFlow einen aehnlichen Isolation-Ansatz, setzt aber auf LangGraph statt auf Container-Laufzeiten. Scion isoliert ueber Docker/Kubernetes, DeerFlow ueber Sandbox-Prozesse. Beide Projekte landen beim selben Prinzip: Isolation auf Infrastrukturebene statt ueber Prompt-Constraints.

GitHub: bytedance/deer-flow

Transport Layer: Das uebersehene Nadeloehr

Anirudh Mendiratta, Staff Engineer fuer Distributed Systems bei Netflix, hat eine Analyse veroeffentlicht, die ein grundlegendes Problem von Multi-Turn-Agent-Systemen quantifiziert: Der HTTP-basierte Transport Layer skaliert nicht.

Das Problem ist strukturell. HTTP-APIs sind zustandslos. Bei jedem Request muss der gesamte bisherige Kontext -- System-Instruktionen, vorherige Modellausgaben, Tool-Ergebnisse -- erneut uebertragen werden. Der Payload waechst linear mit jeder Turn:

Turn HTTP-Payload WebSocket-Payload
1 ~2 KB ~2 KB
5 ~18 KB ~3 KB
10 ~38 KB ~4 KB
Gesamt (10 Turns) ~176 KB ~32 KB

Bei Single-Turn-Chats ist das irrelevant. Bei Agenten, die zehn oder mehr Turns mit Tool-Aufrufen ausfuehren, wird es zum Performance-Faktor.

Stateful Continuation als Loesung

Die Idee: Der Server cached den Kontext nach der ersten Turn im Speicher. Folge-Requests senden nur eine Referenz (z.B. previous_response_id) plus die neuen Daten. Die Ergebnisse aus Mendirattas Benchmarks:

OpenAI hat diesen Ansatz mit der Responses API und einem WebSocket-Modus (seit Februar 2026) umgesetzt. Anthropic und andere Anbieter nutzen Server-Sent Events (SSE), die aehnliche Vorteile bieten koennen, aber die Zustandsverwaltung anders loesen.

Designentscheidungen

Mendiratta unterscheidet zwei Ansaetze fuer serverseitigen Zustand:

Fuer Agenten-Workflows, die Minuten oder Stunden laufen, ist persistenter Zustand die sinnvollere Wahl -- aber auch die aufwaendigere.

Einordnung

Die beiden Entwicklungen zeigen, dass sich die Agent-Infrastruktur auf mehreren Ebenen gleichzeitig professionalisiert:

Ebene Entwicklung Fokus
Framework DeerFlow Sandbox-Isolation, parallele Ausfuehrung, Skill-System
Transport Stateful Continuation Payload-Reduktion, Latenz, Zustandsverwaltung

Frameworks wie DeerFlow oder Scion loesen das Problem, wie Agenten sicher und parallel laufen. Aber selbst perfekt orchestrierte Agenten laufen langsam, wenn jeder API-Call den gesamten Kontext neu uebertraegt. Die Transport-Layer-Analyse zeigt, dass Optimierungen unterhalb der Anwendungsschicht messbare Auswirkungen haben -- 80 Prozent weniger Traffic und 15-29 Prozent schnellere Ausfuehrung sind nicht trivial.

Quellen

Nach oben