27. März 2026

Intern-S1-Pro -- Wissenschaftliches Multimodal-Modell mit einer Billion Parametern

Das InternLM-Team des Shanghai AI Laboratory hat am 27. Maerz 2026 Intern-S1-Pro veroeffentlicht -- das erste multimodale Foundation-Modell mit einer Billion Parametern, das gezielt auf wissenschaftliche Aufgaben spezialisiert ist. Das Modell nutzt eine Mixture-of-Experts-Architektur mit 512 Experts, von denen pro Token 22 Milliarden Parameter aktiviert werden.

Kernaussagen

Intern-S1-Pro beherrscht ueber 100 spezialisierte Tasks ueber vier wissenschaftliche Domaenen hinweg: Chemie, Materialwissenschaften, Biowissenschaften und Geowissenschaften. Das Modell verarbeitet dabei nicht nur Text, sondern auch Bilder, Molekuelstrukturen und experimentelle Daten in einem einheitlichen Framework. Ueber die reine Analyse hinaus verfuegt Intern-S1-Pro ueber Agent-Faehigkeiten: Es kann komplexe wissenschaftliche Workflows autonom planen und ausfuehren -- etwa eine Literaturrecherche mit anschliessender Datenanalyse und Hypothesengenerierung. Das Continued Pretraining auf 6 Billionen Tokens multimodaler Daten stellt sicher, dass das Modell ueber breites und tiefes wissenschaftliches Wissen verfuegt.

Methodik

Der Ansatz kombiniert drei Bausteine. Die MoE-Architektur mit 512 Experts ermoeglicht die Skalierung auf eine Billion Parameter, waehrend pro Inferenzschritt nur 22B Parameter aktiviert werden -- das haelt die Rechenkosten im Rahmen. Das Continued Pretraining auf 6T Tokens multimodaler wissenschaftlicher Daten umfasst Fachpublikationen, experimentelle Datensaetze, Molekueldarstellungen und wissenschaftliche Abbildungen. Die Agent-Faehigkeiten werden durch spezialisiertes Instruction-Tuning auf wissenschaftliche Workflows aufgebaut, bei dem das Modell lernt, mehrstufige Aufgaben in Teilschritte zu zerlegen, passende Tools auszuwaehlen und Zwischenergebnisse zu evaluieren.

Relevanz fuer die Praxis

Intern-S1-Pro zeigt, dass domainspezifische Multimodal-Modelle auf Trillion-Scale nicht nur technisch machbar, sondern praxisrelevant sind. In den Naturwissenschaften muessen Text, Bilder, Molekuelstrukturen und experimentelle Messdaten zusammen interpretiert werden -- ein rein textbasiertes Modell stoesst hier an Grenzen. Die Kombination aus multimodaler Wahrnehmung und Agent-Faehigkeiten eroeffnet konkrete Anwendungsfaelle: automatisierte Literatur-Reviews mit Analyse eingebetteter Abbildungen, Screening von Molekuelkandidaten anhand struktureller und textueller Kriterien, oder die Planung experimenteller Workflows. Fuer Organisationen in Pharma, Materialforschung oder Geowissenschaften signalisiert das Modell, dass AI-gestuetzte Forschungsautomatisierung in Reichweite rueckt.

Quellen

Intern-S1-Pro -- arXiv

Nach oben