20. März 2026

OpenResearcher -- Offenes 30B-Modell schlaegt Frontier-Modelle bei Deep Research

Zhuofeng Li und Kollegen vom TIGER-Lab haben im Maerz 2026 OpenResearcher vorgestellt -- ein vollstaendig offenes 30B-A3B-Modell auf Basis einer Mixture-of-Experts-Architektur, das fuer autonome Deep-Research-Aufgaben trainiert wurde. Das Modell erreicht auf dem anspruchsvollen BrowseComp-Plus-Benchmark 54.8% und uebertrifft damit geschlossene Frontier-Modelle wie GPT-4.1, Claude Opus 4, Gemini 2.5 Pro und DeepSeek-R1.

Kernaussagen

OpenResearcher demonstriert, dass ein vergleichsweise kleines offenes Modell geschlossene Frontier-Systeme bei Deep Research schlagen kann, wenn es gezielt auf die Aufgabe trainiert wird. Der Schluessel liegt in der Qualitaet der Trainingsdaten: 97.000 synthetisierte Trajektorien, teils mit ueber 100 Tool-Calls pro Sequenz, bilden realistische mehrstufige Rechercheverlaeufe ab. Das Modell wurde von NVIDIAs Nemotron-Familie adoptiert, was die praktische Relevanz des Ansatzes unterstreicht. Pipeline, Trainingsdaten und Modellgewichte sind vollstaendig offen verfuegbar.

Methodik

Die Pipeline trennt zwei Phasen sauber voneinander. Im ersten Schritt wird ein Corpus von 15 Millionen Dokumenten einmalig aufgebaut und indexiert (Corpus-Bootstrapping). Im zweiten Schritt synthetisiert das System mehrstufige Such- und Browse-Trajektorien gegen diesen Korpus. Dabei durchlaeuft ein Agent-System iterative Such- und Browse-Loops, die realistische Recherchestrategien abbilden -- von der initialen Suchanfrage ueber das Navigieren und Lesen von Dokumenten bis zur Synthese einer Antwort. Die resultierenden 97K Trajektorien dienen als Supervised-Fine-Tuning-Daten fuer das MoE-Modell. Der Offline-Ansatz vermeidet die Abhaengigkeit von Live-Suchdiensten waehrend des Trainings und macht den Prozess reproduzierbar.

Relevanz fuer die Praxis

Deep Research gehoert zu den vielversprechendsten Agent-Use-Cases: ein System, das eigenstaendig recherchiert, Quellen bewertet und Ergebnisse zusammenfasst. Dass ein offenes 30B-Modell hier geschlossene Systeme mit deutlich mehr Parametern schlaegt, hat zwei wichtige Implikationen. Erstens zeigt es, dass gezieltes Trajectory-Training auf domainspezifische Workflows effektiver sein kann als reine Skalierung. Zweitens macht die vollstaendige Offenheit von Pipeline und Daten den Ansatz reproduzierbar -- Teams koennen die Methodik auf eigene Domaenen uebertragen und spezialisierte Research-Agenten bauen, ohne auf proprietaere APIs angewiesen zu sein.

Quellen

Nach oben