2. April 2026

IBM Granite 4.0 3B Vision: Spezialisiertes VLM fuer Dokumentenextraktion

IBM hat Granite 4.0 3B Vision veroeffentlicht, ein Vision-Language-Model (VLM) fuer Enterprise-Dokumentenextraktion. Kein monolithisches Multimodal-Modell, sondern ein spezialisierter visueller Adapter auf dem Granite 4.0 Micro Language Backbone.

Architektur und Ansatz

Statt ein grosses Allzweck-Modell zu bauen, das auch Bilder kann, geht IBM den umgekehrten Weg: Ein bestehendes, kompaktes Sprachmodell (Granite 4.0 Micro) wird mit einem Vision-Adapter erweitert, der gezielt auf Dokumentenverstaendnis trainiert wurde. Das Ergebnis ist ein Modell mit 3 Milliarden Parametern, das Tabellen, Formulare, Rechnungen und andere strukturierte Dokumente visuell analysiert und die relevanten Daten extrahiert.

Der Fokus liegt auf Praezision bei typischen Enterprise-Dokumenten, nicht auf allgemeinem Bildverstaendnis. Das ist eine bewusste Designentscheidung: Lieber ein Modell, das Rechnungspositionen zuverlaessig erkennt, als eines, das auch Katzenbilder beschreiben kann.

Warum das relevant ist

Granite 4.0 3B Vision illustriert einen Trend, der sich seit Monaten abzeichnet: Weg von immer groesseren Allzweck-Modellen, hin zu spezialisierten, kleinen Modellen fuer konkrete Aufgaben. Fuer Enterprise-Umgebungen hat das handfeste Vorteile.

Mit 3 Milliarden Parametern ist das Modell klein genug fuer On-Premise-Deployment. Das ist entscheidend fuer regulierte Branchen -- Banken, Versicherungen, Behoerden --, die sensible Dokumente nicht an Cloud-APIs senden koennen oder wollen. Die Inferenzkosten sind niedrig, die Hardware-Anforderungen ueberschaubar.

Gleichzeitig zeigt der Ansatz eine moegliche Zukunft der Modellarchitektur: Statt eines Modells fuer alles gibt es ein Backbone mit austauschbaren Adaptern fuer verschiedene Aufgaben. Dokumentenextraktion heute, Qualitaetskontrolle morgen -- jeweils mit spezialisierten Adaptern auf derselben Basis.

Quellen

Nach oben