25. März 2026

MolmoWeb: Offener Web-Agent navigiert nur mit Screenshots

Das Allen Institute for AI (AI2) hat MolmoWeb veröffentlicht -- einen vollständig offenen Web-Agenten, der Websites so bedient wie ein Mensch: ausschliesslich anhand dessen, was auf dem Bildschirm sichtbar ist.

Wie es funktioniert

MolmoWeb arbeitet in einem einfachen Kreislauf: Screenshot aufnehmen, nächste Aktion bestimmen, Aktion ausführen, neuen Screenshot aufnehmen. Mögliche Aktionen sind Klicken, Scrollen, Tab-Wechsel und URL-Navigation.

Der Agent hat keinen Zugriff auf den DOM, den Quellcode oder die Seitenstruktur. AI2 sieht darin einen Vorteil: Das visuelle Erscheinungsbild einer Website ändert sich seltener als ihr zugrundeliegender Code, was den Agenten robuster macht und seine Entscheidungen nachvollziehbarer.

Das Modell basiert auf der Molmo2-Architektur mit Qwen3 als Sprachmodell und SigLIP2 als Vision-Encoder. Training erfolgte mit Supervised Fine-Tuning auf 64 H100-GPUs -- kein Reinforcement Learning, keine Destillation aus proprietären Systemen.

Modellgrössen und Verfügbarkeit

MolmoWeb ist in zwei Varianten verfügbar:

MolmoWeb-4B -- kompakte Variante für ressourcenschonenden Einsatz
MolmoWeb-8B -- stärkere Variante für anspruchsvollere Aufgaben

Beide Modelle, alle Trainingsdaten und die Evaluierungstools stehen unter der Apache-2.0-Lizenz auf Hugging Face und GitHub bereit.

Benchmarks

Trotz der kompakten Grösse übertrifft MolmoWeb-8B auf allen vier getesteten Benchmarks den bisherigen Open-Source-Spitzenreiter (Fara-7B):

WebVoyager (Navigation auf 15 populären Websites wie GitHub und Google Flights): 78,2 % -- verglichen mit OpenAI o3 bei 79,3 %
DeepShop: Nur sechs Prozentpunkte hinter GPT-5
MolmoWeb-8B schlägt Agenten auf Basis des deutlich grösseren GPT-4o, die zusätzlich Zugriff auf annotierte Screenshots und strukturierte Seitendaten haben
Auf ScreenSpot (UI-Element-Lokalisierung) übertrifft ein spezialisiertes 8B-Modell Anthropic Claude 3.7 und OpenAIs CUA

Der Screenshot-only-Ansatz hat einen Preis: Gegenüber dem eigenen "Lehrer" -- einem Gemini-basierten Agenten mit Seitenstrukturzugriff -- liegt MolmoWeb rund fünf Prozentpunkte zurück, weil Texterkennung aus Screenshots aufwendiger ist als direkter DOM-Zugriff.

Mit mehrfachen Durchläufen und Auswahl des besten Ergebnisses (pass@4) steigt die WebVoyager-Erfolgsrate von 78,2 % auf 94,7 %. Mehr Compute zur Inferenzzeit zahlt sich also erheblich aus.

Trainingsdaten: MolmoWebMix

Ein zentraler Beitrag von MolmoWeb ist der Datensatz MolmoWebMix. Bisher war der Mangel an gutem Training-Material der grösste Engpass für offene Web-Agenten.

MolmoWebMix kombiniert:

36.000 vollständige Aufgaben-Runs von Crowdworkern auf über 1.100 Websites -- laut AI2 der grösste öffentliche Datensatz menschlicher Web-Task-Ausführung
Automatisch generierte Runs: Ein Dreier-System aus Planner (Gemini 2.5 Flash), Operator und Verifier (GPT-4o) skaliert die Daten über menschliche Annotation hinaus
2,2 Millionen Screenshot-QA-Paare für Leseverständnis von Webinhalten
7 Millionen Grounding-Beispiele für UI-Element-Lokalisierung

Bemerkenswert: Synthetische Runs liefern laut der Studie bessere Lernergebnisse als menschliche Demonstrationen, weil Menschen auf unbekannten Seiten herumstöbern und Umwege nehmen, während automatisierte Agenten direktere Pfade finden. Zehn Prozent des Datensatzes reichen für 85--90 % der Endleistung.

Warum das für Entwickler relevant ist

Proprietäre Web-Agenten -- ob von OpenAI, Anthropic oder Google -- geben weder Trainingsdaten noch Modellgewichte heraus. Das erzeugt API-Abhängigkeit, schränkt Anpassbarkeit ein und macht es unmöglich, auf den Systemen weiterzuentwickeln.

MolmoWeb bietet eine vollständig offene Basis:

Lokal ausführbar: Kein API-Schlüssel, kein Datenschutzproblem mit externen Servern
Kein Vendor-Lock-in: Apache 2.0 erlaubt kommerzielle Nutzung und Anpassung
Transparente Trainingsdaten: Reproduzierbar und nachvollziehbar -- wichtig für regulierte Umgebungen
Erweiterbar: Eigene Domänen, Workflows und Feinabstimmungen sind möglich

Praktische Anwendungsmöglichkeiten

Test-Automatisierung: Browser-Tests ohne DOM-Selektor-Pflege, da der Agent visuell statt strukturell navigiert
RPA-Ersatz: Formularausfüllung, Datenabruf und Navigation auf Legacy-Systemen ohne Seitenquellcode-Zugriff
Barrierefreiheits-Audits: Prüfung, ob eine Website rein visuell bedienbar ist
Interne Tools automatisieren: Auch Systeme ohne API lassen sich so bedienen
Forschungsgrundlage: Durch offene Gewichte und Daten direkt als Ausgangspunkt für eigene Agenten nutzbar

Einschränkungen

Texterkennung aus Screenshots kann fehlschlagen, besonders bei kleinen Schriften oder schlechtem Kontrast
Unklare Anweisungen oder viele Bedingungen senken die Erfolgsrate
Aufgaben mit Login oder Zahlungsprozessen wurden im Training bewusst ausgeschlossen
Offene Fragen zu Terms of Service und irreversiblen Aktionen bleiben ungelöst

Quellen

Nach oben