MolmoWeb: Offener Web-Agent navigiert nur mit Screenshots
Das Allen Institute for AI (AI2) hat MolmoWeb veröffentlicht -- einen vollständig offenen Web-Agenten, der Websites so bedient wie ein Mensch: ausschliesslich anhand dessen, was auf dem Bildschirm sichtbar ist.
Wie es funktioniert
MolmoWeb arbeitet in einem einfachen Kreislauf: Screenshot aufnehmen, nächste Aktion bestimmen, Aktion ausführen, neuen Screenshot aufnehmen. Mögliche Aktionen sind Klicken, Scrollen, Tab-Wechsel und URL-Navigation.
Der Agent hat keinen Zugriff auf den DOM, den Quellcode oder die Seitenstruktur. AI2 sieht darin einen Vorteil: Das visuelle Erscheinungsbild einer Website ändert sich seltener als ihr zugrundeliegender Code, was den Agenten robuster macht und seine Entscheidungen nachvollziehbarer.
Das Modell basiert auf der Molmo2-Architektur mit Qwen3 als Sprachmodell und SigLIP2 als Vision-Encoder. Training erfolgte mit Supervised Fine-Tuning auf 64 H100-GPUs -- kein Reinforcement Learning, keine Destillation aus proprietären Systemen.
Modellgrössen und Verfügbarkeit
MolmoWeb ist in zwei Varianten verfügbar:
- MolmoWeb-4B -- kompakte Variante für ressourcenschonenden Einsatz
- MolmoWeb-8B -- stärkere Variante für anspruchsvollere Aufgaben
Beide Modelle, alle Trainingsdaten und die Evaluierungstools stehen unter der Apache-2.0-Lizenz auf Hugging Face und GitHub bereit.
Benchmarks
Trotz der kompakten Grösse übertrifft MolmoWeb-8B auf allen vier getesteten Benchmarks den bisherigen Open-Source-Spitzenreiter (Fara-7B):
- WebVoyager (Navigation auf 15 populären Websites wie GitHub und Google Flights): 78,2 % -- verglichen mit OpenAI o3 bei 79,3 %
- DeepShop: Nur sechs Prozentpunkte hinter GPT-5
- MolmoWeb-8B schlägt Agenten auf Basis des deutlich grösseren GPT-4o, die zusätzlich Zugriff auf annotierte Screenshots und strukturierte Seitendaten haben
- Auf ScreenSpot (UI-Element-Lokalisierung) übertrifft ein spezialisiertes 8B-Modell Anthropic Claude 3.7 und OpenAIs CUA
Der Screenshot-only-Ansatz hat einen Preis: Gegenüber dem eigenen "Lehrer" -- einem Gemini-basierten Agenten mit Seitenstrukturzugriff -- liegt MolmoWeb rund fünf Prozentpunkte zurück, weil Texterkennung aus Screenshots aufwendiger ist als direkter DOM-Zugriff.
Mit mehrfachen Durchläufen und Auswahl des besten Ergebnisses (pass@4) steigt die WebVoyager-Erfolgsrate von 78,2 % auf 94,7 %. Mehr Compute zur Inferenzzeit zahlt sich also erheblich aus.
Trainingsdaten: MolmoWebMix
Ein zentraler Beitrag von MolmoWeb ist der Datensatz MolmoWebMix. Bisher war der Mangel an gutem Training-Material der grösste Engpass für offene Web-Agenten.
MolmoWebMix kombiniert:
- 36.000 vollständige Aufgaben-Runs von Crowdworkern auf über 1.100 Websites -- laut AI2 der grösste öffentliche Datensatz menschlicher Web-Task-Ausführung
- Automatisch generierte Runs: Ein Dreier-System aus Planner (Gemini 2.5 Flash), Operator und Verifier (GPT-4o) skaliert die Daten über menschliche Annotation hinaus
- 2,2 Millionen Screenshot-QA-Paare für Leseverständnis von Webinhalten
- 7 Millionen Grounding-Beispiele für UI-Element-Lokalisierung
Bemerkenswert: Synthetische Runs liefern laut der Studie bessere Lernergebnisse als menschliche Demonstrationen, weil Menschen auf unbekannten Seiten herumstöbern und Umwege nehmen, während automatisierte Agenten direktere Pfade finden. Zehn Prozent des Datensatzes reichen für 85--90 % der Endleistung.
Warum das für Entwickler relevant ist
Proprietäre Web-Agenten -- ob von OpenAI, Anthropic oder Google -- geben weder Trainingsdaten noch Modellgewichte heraus. Das erzeugt API-Abhängigkeit, schränkt Anpassbarkeit ein und macht es unmöglich, auf den Systemen weiterzuentwickeln.
MolmoWeb bietet eine vollständig offene Basis:
- Lokal ausführbar: Kein API-Schlüssel, kein Datenschutzproblem mit externen Servern
- Kein Vendor-Lock-in: Apache 2.0 erlaubt kommerzielle Nutzung und Anpassung
- Transparente Trainingsdaten: Reproduzierbar und nachvollziehbar -- wichtig für regulierte Umgebungen
- Erweiterbar: Eigene Domänen, Workflows und Feinabstimmungen sind möglich
Praktische Anwendungsmöglichkeiten
- Test-Automatisierung: Browser-Tests ohne DOM-Selektor-Pflege, da der Agent visuell statt strukturell navigiert
- RPA-Ersatz: Formularausfüllung, Datenabruf und Navigation auf Legacy-Systemen ohne Seitenquellcode-Zugriff
- Barrierefreiheits-Audits: Prüfung, ob eine Website rein visuell bedienbar ist
- Interne Tools automatisieren: Auch Systeme ohne API lassen sich so bedienen
- Forschungsgrundlage: Durch offene Gewichte und Daten direkt als Ausgangspunkt für eigene Agenten nutzbar
Einschränkungen
- Texterkennung aus Screenshots kann fehlschlagen, besonders bei kleinen Schriften oder schlechtem Kontrast
- Unklare Anweisungen oder viele Bedingungen senken die Erfolgsrate
- Aufgaben mit Login oder Zahlungsprozessen wurden im Training bewusst ausgeschlossen
- Offene Fragen zu Terms of Service und irreversiblen Aktionen bleiben ungelöst
Quellen
- The Decoder: AI2's fully open web agent MolmoWeb
- MolmoWeb auf Hugging Face
- MolmoWeb auf GitHub (allenai)
- Forschungspaper (AI2)