OSGym -- Skalierbare OS-Infrastruktur fuer Computer-Use-Agent-Forschung
Forscher von MIT, UIUC, CMU, USC, UVA und UC Berkeley praesentieren OSGym -- eine Infrastruktur, die das zentrale Engpass-Problem der Computer-Use-Agent-Forschung loest: die parallele Bereitstellung und Verwaltung hunderter isolierter Betriebssystem-Umgebungen. Bisherige Ansaetze skalieren schlecht, weil jede OS-Instanz eigenen Speicherplatz und eigene CPU-Ressourcen beansprucht und Fehler in einer Instanz das gesamte System destabilisieren koennen. OSGym kombiniert dezentrales State-Management, Hardware-aware Orchestrierung und KVM-basierte Copy-on-Write-Virtualisierung, um 1000+ Replicas auf einem einzigen Server fuer $0.23 pro Tag zu betreiben.
Kernaussagen
Computer-Use-Agents (CUAs) -- Modelle, die Betriebssysteme ueber Screenshot-Interpretation und Maus-/Tastatur-Aktionen bedienen -- benoetigen fuer Training und Evaluation grosse Mengen paralleler OS-Umgebungen. Jede Trajektorie erfordert einen sauberen OS-Zustand, der nach Abschluss zurueckgesetzt werden muss. Konventionelle Setups mit vollstaendigen VM-Images oder Docker-Containern scheitern an Speicherverbrauch, Provisionierungszeit und Fehlerausbreitung.
OSGym adressiert dies ueber vier technische Saeulen:
Dezentrales OS-State-Management. Jede Replica verwaltet ihren Zustand unabhaengig. Ein Fehler in einer Instanz -- Absturz, Deadlock, korrupter Zustand -- bleibt isoliert und beeintraechtigt weder andere Replicas noch den Orchestrator. Das ist ein fundamentaler Unterschied zu zentralisierten Ansaetzen, bei denen ein einzelner State-Manager zum Single Point of Failure wird.
Hardware-aware Replica-Orchestrierung. Der Scheduler verteilt Replicas unter Beruecksichtigung der tatsaechlichen Hardware-Topologie -- CPU-Kerne, NUMA-Nodes, Speicherbandbreite. Das eliminiert CPU-Bottlenecks, die bei naiver Verteilung auftreten, wenn zu viele Instanzen um dieselben physischen Kerne konkurrieren.
KVM mit Copy-on-Write. Statt fuer jede Replica ein vollstaendiges Disk-Image zu klonen, nutzt OSGym KVM-Virtualisierung mit Copy-on-Write-Backing-Stores. Neue Replicas teilen sich das Basis-Image und schreiben nur Aenderungen in eigene Overlay-Dateien. Das reduziert den Speicherbedarf um 88% und beschleunigt die Provisionierung um den Faktor 37 gegenueber vollstaendigen Kopien.
Multi-Layer Fault Recovery. Ein mehrstufiges Wiederherstellungssystem erkennt und behebt Fehler auf verschiedenen Ebenen -- von eingefrorenen GUI-Prozessen ueber nicht reagierende VMs bis hin zu Kernel-Panics -- ohne manuelle Intervention.
Methodik
Die Evaluation laeuft auf einem Server mit 88-Core Intel Xeon E5-2699 und 768 GB DDR4 RAM. OSGym generiert 1420 Multi-Turn-Trajektorien pro Minute und erreicht dabei eine Kostenreduktion von 90% gegenueber konventionellen VM-basierten Setups. Die Infrastruktur unterstuetzt beliebige OS-Tasks: Browser-Navigation, Software-Engineering-Aufgaben, Office-Anwendungen und Tool-Use-Szenarien.
Die Autoren demonstrieren die Generalisierung, indem sie OSGym als Backend fuer mehrere existierende CUA-Benchmarks einsetzen, ohne deren Task-Definitionen aendern zu muessen. Die Replica-Orchestrierung skaliert linear mit der verfuegbaren Hardware -- mehr Kerne und RAM ermoeglichen proportional mehr parallele Instanzen.
Relevanz fuer die Praxis
Kosten als geloestes Problem. Der Betrieb von 1000+ parallelen OS-Umgebungen fuer weniger als einen Dollar pro Tag macht CUA-Forschung auch fuer kleinere Labs und Universitaeten zugaenglich. Bisher war die Infrastruktur fuer grossflaechiges CUA-Training und -Evaluation ein erheblicher Kostenfaktor, der die Forschung auf wenige gut finanzierte Gruppen beschraenkte.
Reproduzierbarkeit durch isolierte Zustaende. Das dezentrale State-Management mit sauberem Reset nach jeder Trajektorie schafft die Grundlage fuer reproduzierbare CUA-Experimente. Zustandsueberreste aus vorherigen Laeufen -- ein haeufiges Problem bei geteilten Umgebungen -- werden strukturell ausgeschlossen.
Infrastruktur fuer die naechste Generation von Agenten. CUAs, die beliebige Software ueber die GUI bedienen koennen, gelten als vielversprechender Ansatz fuer allgemeine Agenten. OSGym liefert die Trainings- und Evaluations-Infrastruktur, die fuer den Fortschritt in diesem Bereich notwendig ist -- vergleichbar mit der Rolle, die Gym/Gymnasium fuer Reinforcement Learning gespielt hat.