2. April 2026

Drop the Hierarchy -- Selbstorganisierende LLM-Agenten uebertreffen designte Strukturen

Victoria Dochkina untersucht in einem grossangelegten Experiment, ob vorgegebene Hierarchien und Rollenstrukturen in Multi-Agent-Systemen tatsaechlich notwendig sind. Die Antwort ist uneindeutig -- und genau deshalb aufschlussreich: Bei starken Modellen uebertrifft Selbstorganisation jede designte Struktur. Bei schwachen Modellen schadet sie. Die Studie umfasst 25.000 Aufgaben, 8 Modelle, Agentengruppen von 4 bis 256 und 8 Koordinationsprotokolle.

Kernaussagen

Die Studie vergleicht vier Koordinationsprotokolle systematisch:

Coordinator (zentral): Ein einzelner Agent weist allen anderen Rollen zu, die dann parallel arbeiten. N+1 LLM-Aufrufe pro Aufgabe.

Sequential (hybrid): Agenten arbeiten in fester Reihenfolge, waehlen ihre Rolle aber autonom, nachdem sie die Ausgaben aller Vorgaenger gesehen haben. N Aufrufe, sequentiell.

Broadcast (signalbasiert): Zwei Runden -- Agenten kuendigen erst ihre Absichten an, entscheiden dann basierend auf allen Absichten. 2N Aufrufe.

Shared (voll autonom): Agenten greifen auf einen gemeinsamen Speicher zu und entscheiden simultan ohne Echtzeit-Sichtbarkeit auf andere. N parallele Aufrufe.

Das zentrale Ergebnis: Das Sequential-Protokoll uebertrifft die zentrale Koordination um 14% (p < 0,001). Die Qualitaetsvarianz zwischen den Protokollen betraegt 44% (Cohen's d = 1,86, p < 0,0001). Die Autoren vergleichen das Sequential-Protokoll mit einem Sport-Draft: Jedes Team waehlt mit Wissen ueber alle bisherigen Picks und fuellt natuerlich komplementaere Positionen -- ohne zentrale Planung.

Die acht getesteten Modelle umfassen Claude Sonnet 4.6, GPT-5.4, GPT-4o, GPT-4.1-mini, Gemini-3-flash, GigaChat 2 Max (closed-source) sowie DeepSeek v3.2 und GLM-5 (open-source). DeepSeek v3.2 erreicht 95% der Qualitaet von Claude Sonnet 4.6 bei 24-fach niedrigeren Kosten.

Drei emergente Verhaltensweisen treten ohne jede Vorgabe auf:

Spontane Rollenspezialisierung. Aus 8 Agenten entstehen 5.006 einzigartige Rollennamen -- 54% davon werden genau einmal verwendet. Die Agenten erfinden Rollen kontextabhaengig fuer jede Aufgabe neu, statt sich in feste Muster einzufinden.

Freiwillige Selbstabstinenz. Im Sequential-Protokoll entscheiden sich 63% der nicht beitragenden Agenten eigenstaendig fuer den Rueckzug. Im Coordinator-Protokoll werden dagegen 100% durch den Koordinator ausgeschlossen. Claude zeigt die hoechste freiwillige Abstinenzrate (8,6%). Bei 256 Agenten werden rund 45% der Agenten durch Selbstabstinenz inaktiv -- ein endogener Kostenoptimierungsmechanismus.

Flache Hierarchiebildung. Das System bevorzugt konsistent flache Strukturen. Die Hierarchietiefe waechst von 1,0 (trivial) bei 4 Agenten auf lediglich 2,0 bei 64 Agenten -- maximal zwei Managementebenen, ohne externe Vorgabe.

Die Skalierungsexperimente sind bemerkenswert: Von 64 auf 256 Agenten gibt es keinen statistisch signifikanten Qualitaetsverlust (p = 0,61). Die Qualitaet bleibt bei 0,964-0,967, waehrend die Kosten nur um 11,8% steigen trotz 8-facher Agentenanzahl.

Methodik

Die Studie verwendet synthetisch generierte Aufgaben in vier Schwierigkeitsstufen (L1-L4), von Einzel-Domaenen-Aufgaben bis zu adversarialen Multi-Domaenen-Problemen. Alle Qualitaetsbewertungen erfolgen durch LLM-Judges (GPT-4o und GPT-5.4). Die Autoren weisen explizit auf diese Einschraenkung hin -- menschliche Evaluation auf 50-100 repraesentativen Aufgaben wird als prioritaere Folgearbeit benannt.

Die Evaluation deckt drei Experimentserien ab: (1) Protokollvergleich mit 8 Agenten, (2) Skalierung von 8 auf 64 Agenten mit festen Rollen, (3) Skalierung von 64 auf 256 Agenten mit Selbstorganisation. Ein Wechsel des Judge-Modells zwischen Serien schraenkt die Vergleichbarkeit absoluter Werte ein, innerhalb jeder Serie bleibt die interne Validitaet erhalten.

Vier weitere bioinspirierte Protokolle (Morphogenetic, Clonal, Stigmergic, Ripple) wurden getestet, deren Ergebnisse aber einem separaten Paper vorbehalten sind.

Relevanz fuer die Praxis

Fuer Teams, die Multi-Agent-Systeme produktiv einsetzen, liefert die Studie drei direkt anwendbare Einsichten:

Starke Modelle brauchen keine Rollen. Der wichtigste Befund: Bei leistungsfaehigen Modellen wie Claude Sonnet 4.6 oder GPT-5.4 schadet die Vorgabe fester Rollen mehr als sie nuetzt. Die Empfehlung der Autoren: "Gebt Agenten eine Mission, ein Protokoll und ein faehiges Modell -- keine vorgegebene Rolle." Fuer Frameworks wie CrewAI oder AutoGen bedeutet das: Die sorgfaeltig designten Rollenbeschreibungen sind bei starken Modellen moeglicherweise kontraproduktiv.

Sequentielle Sichtbarkeit schlaegt parallele Ausfuehrung. Das Sequential-Protokoll ist langsamer (O(N) Latenz), aber 14% besser als zentrale Koordination. Der Grund: Jeder Agent sieht, was seine Vorgaenger tatsaechlich getan haben -- nicht nur Absichten oder historische Muster. In der Praxis heisst das: Chain-of-Agents-Architekturen, bei denen jeder Agent den Output der Vorgaenger sieht, sind der beste Kompromiss zwischen Qualitaet und Autonomie.

Skalierung funktioniert -- durch Selbstregulierung. Das System skaliert auf 256 Agenten ohne Qualitaetsverlust, weil ueberzaehlige Agenten sich selbst zurueckziehen. Das ist ein fundamentaler Unterschied zu klassischer Orchestrierung, bei der jeder Agent Arbeit bekommt. Fuer die Praxis bedeutet das: Lieber zu viele Agenten bereitstellen und die Selbstregulierung arbeiten lassen, als die optimale Agentenanzahl vorab zu bestimmen.

Quellen

Nach oben