ClinicalAgents -- Multi-Agent-Orchestrierung mit MCTS und Dual-Memory
Zhuohan Ge, Haoyang Li, Yubo Wang, Nicole Hu, Chen Jason Zhang und Qing Li von der Hong Kong Polytechnic University und der HKUST stellen ClinicalAgents vor -- ein Multi-Agenten-Framework, das die iterative, hypothesengetriebene Arbeitsweise erfahrener Kliniker nachbildet. Das System orchestriert spezialisierte Agenten ueber einen Monte-Carlo-Tree-Search-Mechanismus (MCTS) und verwaltet Kontext ueber eine Dual-Memory-Architektur. Obwohl im medizinischen Kontext entwickelt, sind die architektonischen Muster -- adaptive Orchestrierung, strukturiertes Backtracking, getrennte Gedaechtnisschichten -- auf beliebige Multi-Agent-Systeme uebertragbar.
Kernaussagen
Bestehende Multi-Agent-Frameworks leiden unter einem grundlegenden Designproblem: Sie verwenden statische, lineare Workflows, bei denen Agenten in fester Reihenfolge aufgerufen werden. Wenn ein Agent in Schritt 3 feststellt, dass kritische Informationen aus Schritt 1 fehlen, gibt es keinen strukturierten Weg zurueck. ClinicalAgents loest das durch drei architektonische Entscheidungen.
Erstens: Ein zentraler Orchestrator modelliert die Agenten-Koordination als MCTS-Problem. Der Zustandsraum umfasst das aktuelle Working Memory mit Evidenzen, Hypothesen und Aktionshistorie. Der Aktionsraum bietet vier Optionen: einen spezialisierten Agenten aktivieren, das Experience Memory abfragen, zu einem frueheren Workflow-Schritt zurueckspringen oder die Verarbeitung beenden. Die Reward-Funktion belohnt Aktionen, die entweder Evidenzluecken schliessen oder die diagnostische Konfidenz erhoehen, und bestraft Stagnation.
Zweitens: Die Dual-Memory-Architektur trennt veraenderlichen Kontext (Working Memory) von stabilem Wissen (Experience Memory). Das Working Memory akkumuliert laufend Evidenzen, Hypothesen und die Aktionshistorie. Das Experience Memory greift ueber Graph-basiertes RAG auf klinische Leitlinien und historische Faelle zu und identifiziert proaktiv fehlende Evidenzen basierend auf aehnlichen Faellen.
Drittens: Der Backtracking-Mechanismus ist nicht willkuerlich, sondern strukturiert. Wenn die Verifikation Evidenzluecken aufdeckt, identifiziert das System den Typ der fehlenden Evidenz, ordnet ihn dem passenden Workflow-Schritt zu und springt gezielt dorthin zurueck. Eine fehlende Bildgebung fuehrt zurueck zur Untersuchungsphase, ein fehlender Laborwert zur Testanordnung.
Die Ergebnisse auf dem MedChain-Benchmark (12.163 Faelle, 5-stufiger Workflow) zeigen: ClinicalAgents erreicht einen Durchschnittsscore von 0,5107, was einer Verbesserung von 13% gegenueber dem Backbone-Modell GPT-5.2 und 4,7% gegenueber der staerksten Multi-Agent-Baseline entspricht. Die groessten Zugewinne liegen bei der Testanordnung (+10%), wo der Verifikations-Backtracking-Zyklus redundante Tests eliminiert und fehlende ergaenzt.
Methodik
Das System koordiniert spezialisierte Agenten fuer Erstbewertung, Testanordnung, Bildinterpretation, Diagnose und Behandlungsplanung. Jeder Agent erhaelt kontextuelle Prompts, die den aktuellen Working-Memory-Zustand referenzieren.
Der Orchestrator operiert als Markov-Entscheidungsprozess. Pro Iterationsschritt waehlt er ueber MCTS die naechste Aktion: Agenten-Aktivierung, Wissensabfrage, Backtracking oder Terminierung. Die Baumsuche exploriert mehrere moegliche Aktionssequenzen und bewertet sie anhand der Reward-Funktion, die Evidenz-Vollstaendigkeit und Konfidenz-Zugewinn gewichtet.
Die Ablationsstudie zeigt komplementaere Beitraege der Komponenten: Dual-Memory allein bringt +5,3% ueber die Baseline, der Orchestrator addiert +4,2%, das Gesamtsystem nochmals +2,9%. Dual-Memory profitiert am staerksten bei der Erstbewertung (+11,5% Accuracy), der Orchestrator bei der Testanordnung (+11,8% IoU).
Die Robustheitsanalyse ueber vier verschiedene Backbone-Modelle zeigt, dass das Framework den groessten Zugewinn bei schwachen Modellen liefert: HuaTuoGPT-o1-7B verbessert sich um 25,4%, waehrend GPT-5.2 um 13% zulegt. Gleichzeitig sinkt die Varianz zwischen den Modellen, was auf eine stabilisierende Wirkung des Frameworks hindeutet.
Relevanz fuer die Praxis
MCTS als Orchestrierungsprinzip. Die meisten Multi-Agent-Frameworks verwenden einfache sequenzielle oder parallele Ausfuehrung. ClinicalAgents zeigt, dass MCTS eine strukturierte Alternative bietet: Der Orchestrator kann mehrere Aktionssequenzen explorieren und die vielversprechendste waehlen. Das ist ueberall dort relevant, wo Agenten-Workflows nicht linear sind -- etwa bei komplexen Debugging-Szenarien, mehrstufigen Recherchen oder iterativen Design-Prozessen.
Strukturiertes Backtracking statt Neustart. In der Praxis scheitern Agent-Workflows oft, weil fruehe Schritte unvollstaendige Ergebnisse liefern. Die uebliche Reaktion ist ein kompletter Neustart. ClinicalAgents demonstriert einen gezielteren Ansatz: Das System identifiziert, welcher Typ von Information fehlt, und springt nur zum relevanten Schritt zurueck. Das spart Compute und verbessert die Ergebnisqualitaet.
Getrennte Gedaechtnisschichten als Designpattern. Die Trennung in veraenderliches Working Memory und stabiles Experience Memory ist ein uebertragbares Muster. Working Memory haelt den aktuellen Aufgabenkontext konsistent ueber Agent-Interaktionen hinweg. Experience Memory liefert stabiles Domainwissen per RAG. Die Ablationsstudie belegt, dass beide Schichten komplementaere Beitraege leisten -- keine allein genuegt.
Kompensatorische Wirkung bei schwachen Modellen. Die staerksten relativen Verbesserungen zeigen sich bei kleinen oder schwachen Backbone-Modellen. Das ist ein wichtiges Signal fuer Teams, die aus Kosten- oder Latenzgruenden nicht das staerkste verfuegbare Modell einsetzen koennen: Eine gute Orchestrierung kann Modellschwaechen teilweise kompensieren.