25. März 2026

MolmoWeb: Offener Web-Agent navigiert nur mit Screenshots

Das Allen Institute for AI (AI2) hat MolmoWeb veröffentlicht -- einen vollständig offenen Web-Agenten, der Websites so bedient wie ein Mensch: ausschliesslich anhand dessen, was auf dem Bildschirm sichtbar ist.

Wie es funktioniert

MolmoWeb arbeitet in einem einfachen Kreislauf: Screenshot aufnehmen, nächste Aktion bestimmen, Aktion ausführen, neuen Screenshot aufnehmen. Mögliche Aktionen sind Klicken, Scrollen, Tab-Wechsel und URL-Navigation.

Der Agent hat keinen Zugriff auf den DOM, den Quellcode oder die Seitenstruktur. AI2 sieht darin einen Vorteil: Das visuelle Erscheinungsbild einer Website ändert sich seltener als ihr zugrundeliegender Code, was den Agenten robuster macht und seine Entscheidungen nachvollziehbarer.

Das Modell basiert auf der Molmo2-Architektur mit Qwen3 als Sprachmodell und SigLIP2 als Vision-Encoder. Training erfolgte mit Supervised Fine-Tuning auf 64 H100-GPUs -- kein Reinforcement Learning, keine Destillation aus proprietären Systemen.

Modellgrössen und Verfügbarkeit

MolmoWeb ist in zwei Varianten verfügbar:

Beide Modelle, alle Trainingsdaten und die Evaluierungstools stehen unter der Apache-2.0-Lizenz auf Hugging Face und GitHub bereit.

Benchmarks

Trotz der kompakten Grösse übertrifft MolmoWeb-8B auf allen vier getesteten Benchmarks den bisherigen Open-Source-Spitzenreiter (Fara-7B):

Der Screenshot-only-Ansatz hat einen Preis: Gegenüber dem eigenen "Lehrer" -- einem Gemini-basierten Agenten mit Seitenstrukturzugriff -- liegt MolmoWeb rund fünf Prozentpunkte zurück, weil Texterkennung aus Screenshots aufwendiger ist als direkter DOM-Zugriff.

Mit mehrfachen Durchläufen und Auswahl des besten Ergebnisses (pass@4) steigt die WebVoyager-Erfolgsrate von 78,2 % auf 94,7 %. Mehr Compute zur Inferenzzeit zahlt sich also erheblich aus.

Trainingsdaten: MolmoWebMix

Ein zentraler Beitrag von MolmoWeb ist der Datensatz MolmoWebMix. Bisher war der Mangel an gutem Training-Material der grösste Engpass für offene Web-Agenten.

MolmoWebMix kombiniert:

Bemerkenswert: Synthetische Runs liefern laut der Studie bessere Lernergebnisse als menschliche Demonstrationen, weil Menschen auf unbekannten Seiten herumstöbern und Umwege nehmen, während automatisierte Agenten direktere Pfade finden. Zehn Prozent des Datensatzes reichen für 85--90 % der Endleistung.

Warum das für Entwickler relevant ist

Proprietäre Web-Agenten -- ob von OpenAI, Anthropic oder Google -- geben weder Trainingsdaten noch Modellgewichte heraus. Das erzeugt API-Abhängigkeit, schränkt Anpassbarkeit ein und macht es unmöglich, auf den Systemen weiterzuentwickeln.

MolmoWeb bietet eine vollständig offene Basis:

Praktische Anwendungsmöglichkeiten

Einschränkungen

Quellen

Nach oben