2. April 2026

Adaptive VLM Routing fuer Computer Use Agents -- 78% Kostenreduktion durch intelligentes Modell-Routing

Liu, He, Liu, Luo, Zhang und Chen adressieren ein konkretes Kostenproblem bei Computer Use Agents (CUAs): Aktuelle Systeme schicken jede GUI-Aktion -- ob triviales Menue-Klicken oder komplexe Formulareingabe -- an dasselbe grosse Vision-Language-Modell. Das ist teuer und unnoetig. Ihr Framework Adaptive VLM Routing (AVR) schaltet eine leichtgewichtige Routing-Schicht zwischen CUA-Orchestrator und einen Pool aus unterschiedlich grossen VLMs, die pro Aktion das kostenguenstigste Modell waehlt.

Kernaussagen

AVR formalisiert die Modellauswahl als Kosten-Genauigkeits-Optimierung und trifft die Routing-Entscheidung in drei Schritten:

Schwierigkeitsschaetzung: Ein 120M-Parameter Multimodal-Embedder (SigLIP + MiniLM-L6-v2) analysiert Screenshot-Ausschnitt und Aktionsbeschreibung. Prototyp-Embeddings aus vorklassifizierten UI-Elementen liefern einen Schwierigkeitsscore.
Confidence-Probing: Das kleine VLM (Qwen2.5-VL-7B) wird mit Logprobs abgefragt. Aus den mittleren Log-Wahrscheinlichkeiten entsteht ein normalisierter Confidence-Score.
Memory-Kompensation: Bei Agenten mit Interaktionshistorie werden fruehere UI-Interaktionen aus einem Vektorspeicher injiziert. Das hebt die Confidence-Verteilung des kleinen Modells an und haelt mehr Aktionen auf der guenstigen Schiene.

Die Ergebnisse im Detail:

Cold Routing (ohne Memory): 52% Kosteneinsparung bei 42,1% effektiver Genauigkeit auf ScreenSpot-Pro (Baseline 43,6%)
Warm Routing (mit Memory): 70% Kosteneinsparung, 41,3% Genauigkeit
Warm + Difficulty: 78% Kosteneinsparung bei 42,8% Genauigkeit -- praktisch identisch mit der All-Large-Baseline
OpenClaw Benchmark: Mit Memory steigt die Confidence des 7B-Modells von 0,83 auf 0,96, sodass 100% der Turns auf dem guenstigen Modell bleiben

Ein zentrales Ergebnis: Memory wirkt als Modell-Equalizer. Kontextinjektion aus frueheren Interaktionen macht das kleine Modell so sicher, dass Eskalation zum grossen Modell ueberfluessig wird.

Methodik

Die Architektur nutzt einen Zwei-Modell-Pool: Qwen2.5-VL-7B (10x guenstiger) und Qwen2.5-VL-72B (hoehere Genauigkeit). Die Routing-Funktion verwendet schwierigkeitsadaptive Schwellenwerte -- leichte Aktionen brauchen nur 0,80 Confidence, schwere 0,92, dazwischen wird interpoliert.

Fuer Sicherheit integriert AVR den Visual Confused Deputy Guardrail. Dieser nutzt kontrastive Knowledge-Base-Klassifikation, um potenziell gefaehrliche Aktionen zu erkennen. Bei Sicherheitsrisiken wird die Kostenoptimierung ueberstimmt und direkt zum grossen Modell eskaliert, mit Post-hoc-Verifikation.

Evaluiert wurde auf ScreenSpot-Pro (GUI-Grounding ueber 26 professionelle Applikationen), OpenClaw (Text-Agent-Benchmark, 5 Tasks, 20 LLM-Turns) und kontextuell auf OSWorld.

Einschraenkungen benennen die Autoren klar: Die CUA-Einsparungen sind analytisch projiziert, nicht End-to-End validiert. Bei sehr kurzen Tasks (3 oder weniger Aktionen) ueberwiegt der Routing-Overhead. Und Cold-Start-Agenten muessen erst Memory aufbauen, bevor das volle Sparpotenzial greift.

Relevanz fuer die Praxis

Direkt anwendbar fuer CUA-Betreiber. Wer Computer-Use-Agenten im Produktionsbetrieb hat, kann mit AVR die Inferenzkosten drastisch senken, ohne nennenswerte Genauigkeitseinbussen. Das Prinzip "nicht jede Aktion braucht das groesste Modell" ist trivial, die systematische Umsetzung mit Difficulty-Scoring und Memory-Kompensation aber nicht.

Memory als Schluessel zur Kosteneffizienz. Das Paper liefert einen handfesten Beleg, dass Agenten-Memory nicht nur die Qualitaet verbessert, sondern auch direkt Kosten spart. Wer seine CUA-Pipeline um einen Vektorspeicher fuer UI-Interaktionen erweitert, kann fast vollstaendig auf das guenstige Modell wechseln.

Uebertragbar auf andere Agent-Architekturen. Das Routing-Prinzip -- Schwierigkeitsschaetzung, Confidence-Probing, schwellenwertbasierte Eskalation -- ist nicht auf GUI-Agenten beschraenkt. Coding Agents, Browser Agents oder API-Agenten koennten aehnliche Routing-Schichten nutzen, um Kosten-Genauigkeits-Tradeoffs systematisch zu optimieren.

Sicherheit und Kosten muessen nicht konkurrieren. Die Integration des Visual Confused Deputy Guardrails zeigt, wie Sicherheitsklassifikation und Kostenoptimierung in einer Routing-Architektur koexistieren: Gefaehrliche Aktionen werden immer eskaliert, unabhaengig vom Kostensignal.

Quellen

Adaptive Vision-Language Model Routing for Computer Use Agents -- arXiv

Nach oben