9. April 2026

OSGym -- Skalierbare OS-Infrastruktur fuer Computer-Use-Agent-Forschung

Forscher von MIT, UIUC, CMU, USC, UVA und UC Berkeley praesentieren OSGym -- eine Infrastruktur, die das zentrale Engpass-Problem der Computer-Use-Agent-Forschung loest: die parallele Bereitstellung und Verwaltung hunderter isolierter Betriebssystem-Umgebungen. Bisherige Ansaetze skalieren schlecht, weil jede OS-Instanz eigenen Speicherplatz und eigene CPU-Ressourcen beansprucht und Fehler in einer Instanz das gesamte System destabilisieren koennen. OSGym kombiniert dezentrales State-Management, Hardware-aware Orchestrierung und KVM-basierte Copy-on-Write-Virtualisierung, um 1000+ Replicas auf einem einzigen Server fuer $0.23 pro Tag zu betreiben.

Kernaussagen

Computer-Use-Agents (CUAs) -- Modelle, die Betriebssysteme ueber Screenshot-Interpretation und Maus-/Tastatur-Aktionen bedienen -- benoetigen fuer Training und Evaluation grosse Mengen paralleler OS-Umgebungen. Jede Trajektorie erfordert einen sauberen OS-Zustand, der nach Abschluss zurueckgesetzt werden muss. Konventionelle Setups mit vollstaendigen VM-Images oder Docker-Containern scheitern an Speicherverbrauch, Provisionierungszeit und Fehlerausbreitung.

OSGym adressiert dies ueber vier technische Saeulen:

Dezentrales OS-State-Management. Jede Replica verwaltet ihren Zustand unabhaengig. Ein Fehler in einer Instanz -- Absturz, Deadlock, korrupter Zustand -- bleibt isoliert und beeintraechtigt weder andere Replicas noch den Orchestrator. Das ist ein fundamentaler Unterschied zu zentralisierten Ansaetzen, bei denen ein einzelner State-Manager zum Single Point of Failure wird.

Hardware-aware Replica-Orchestrierung. Der Scheduler verteilt Replicas unter Beruecksichtigung der tatsaechlichen Hardware-Topologie -- CPU-Kerne, NUMA-Nodes, Speicherbandbreite. Das eliminiert CPU-Bottlenecks, die bei naiver Verteilung auftreten, wenn zu viele Instanzen um dieselben physischen Kerne konkurrieren.

KVM mit Copy-on-Write. Statt fuer jede Replica ein vollstaendiges Disk-Image zu klonen, nutzt OSGym KVM-Virtualisierung mit Copy-on-Write-Backing-Stores. Neue Replicas teilen sich das Basis-Image und schreiben nur Aenderungen in eigene Overlay-Dateien. Das reduziert den Speicherbedarf um 88% und beschleunigt die Provisionierung um den Faktor 37 gegenueber vollstaendigen Kopien.

Multi-Layer Fault Recovery. Ein mehrstufiges Wiederherstellungssystem erkennt und behebt Fehler auf verschiedenen Ebenen -- von eingefrorenen GUI-Prozessen ueber nicht reagierende VMs bis hin zu Kernel-Panics -- ohne manuelle Intervention.

Methodik

Die Evaluation laeuft auf einem Server mit 88-Core Intel Xeon E5-2699 und 768 GB DDR4 RAM. OSGym generiert 1420 Multi-Turn-Trajektorien pro Minute und erreicht dabei eine Kostenreduktion von 90% gegenueber konventionellen VM-basierten Setups. Die Infrastruktur unterstuetzt beliebige OS-Tasks: Browser-Navigation, Software-Engineering-Aufgaben, Office-Anwendungen und Tool-Use-Szenarien.

Die Autoren demonstrieren die Generalisierung, indem sie OSGym als Backend fuer mehrere existierende CUA-Benchmarks einsetzen, ohne deren Task-Definitionen aendern zu muessen. Die Replica-Orchestrierung skaliert linear mit der verfuegbaren Hardware -- mehr Kerne und RAM ermoeglichen proportional mehr parallele Instanzen.

Relevanz fuer die Praxis

Kosten als geloestes Problem. Der Betrieb von 1000+ parallelen OS-Umgebungen fuer weniger als einen Dollar pro Tag macht CUA-Forschung auch fuer kleinere Labs und Universitaeten zugaenglich. Bisher war die Infrastruktur fuer grossflaechiges CUA-Training und -Evaluation ein erheblicher Kostenfaktor, der die Forschung auf wenige gut finanzierte Gruppen beschraenkte.

Reproduzierbarkeit durch isolierte Zustaende. Das dezentrale State-Management mit sauberem Reset nach jeder Trajektorie schafft die Grundlage fuer reproduzierbare CUA-Experimente. Zustandsueberreste aus vorherigen Laeufen -- ein haeufiges Problem bei geteilten Umgebungen -- werden strukturell ausgeschlossen.

Infrastruktur fuer die naechste Generation von Agenten. CUAs, die beliebige Software ueber die GUI bedienen koennen, gelten als vielversprechender Ansatz fuer allgemeine Agenten. OSGym liefert die Trainings- und Evaluations-Infrastruktur, die fuer den Fortschritt in diesem Bereich notwendig ist -- vergleichbar mit der Rolle, die Gym/Gymnasium fuer Reinforcement Learning gespielt hat.

Quellen

OSGym: Scalable OS Infrastructure for Computer Use Agent Research -- arXiv

Nach oben