11. April 2026

AI-Modelle raten lieber als zu fragen -- besonders wenn sie nichts sehen

Wer einem Menschen ein Foto zeigt, auf dem das eigentliche Motiv hinter einem Karton verschwindet, bekommt eine simple Reaktion: "Kannst du den Karton wegnehmen?" Multimodale AI-Modelle reagieren anders. Sie raten -- oder verweigern stumm. Das neue Benchmark ProactiveBench von Forschern der Universität Trient (De Min, Roy, Lathuilière, Ricci, Mancini) zeigt, wie systematisch dieses Verhalten ist. Und es ist schlechter, als die Praxis vermuten lässt.

Was die Studie konkret zeigt

Die Autoren bauen aus sieben bestehenden Vision-Datensätzen 18.000 Test-Samples mit über 108.000 Bildern, bei denen die Aufgabe ohne Nachfrage nicht lösbar ist: verdeckte Objekte (ROD, VSOD), uninformative Perspektiven (MVP-N), verrauschte Bilder (ImageNet-C), grobe Skizzen (QuickDraw), zeitliche Mehrdeutigkeiten (ChangeIt) und Kamerabewegungen (MS-COCO). Ein Vorfilter entfernt alles, was ein Modell beim ersten Versuch korrekt lösen könnte. Bestehen kann den Benchmark nur, wer aktiv um zusätzliche Information bittet -- etwa darum, das verdeckende Objekt zu entfernen oder die Kamera zu bewegen.

22 multimodale Modelle treten an, von LLaVA-OV über Qwen2.5-VL und InternVL3 bis zu GPT-4.1, GPT-5.2 und o4-mini. Im Referenz-Setting mit voll sichtbaren Objekten lösen sie im Schnitt 79,8 Prozent der Aufgaben. Auf ProactiveBench bricht der Wert auf 17,5 Prozent ein. Im ROD-Datensatz mit verdeckten Objekten fällt die Genauigkeit von 98,3 auf 8,2 Prozent. Die Modelle können die Objekte erkennen -- sie kommen nur nicht auf die Idee, jemanden um Hilfe zu bitten.

Besonders unangenehm: Modellgröße hilft nicht. InternVL3-1B schlägt InternVL3-8B (27,1 vs. 12,7 Prozent). Das ältere LLaVA-1.5-7B liegt vor dem deutlich neueren LLaVA-OV-72B. Auch das Backbone macht den Unterschied: LLaVA-NeXT mit Vicuna kommt auf 19,3 Prozent, dasselbe Setup mit Mistral nur auf 4,5. Bei den Closed-Source-Modellen erreichen GPT-Varianten die besten Werte, wobei die Autoren bei MS-COCO Hinweise auf Datenkontamination flagen.

Die härteste Erkenntnis steckt im Stress-Test: Die Forscher ersetzten plausible Rückfragen durch sinnlose Optionen ("Spule das Video zurück" bei einer Skizzen-Aufgabe). Modelle, die zuvor "proaktiv" wirkten, griffen genauso bereitwillig zu den Unsinns-Optionen. LLaVA-NeXT Vicuna schlug bei Blödsinn-Optionen sogar öfter zu (49 statt 37 Prozent). Was wie Proaktivität aussieht, ist also keine echte Unsicherheits-Detektion -- es ist nur eine niedrigere Hemmschwelle beim Raten.

Warum Modelle lieber raten

Drei plausible Ursachen:

Hinweise im Prompt ("Du darfst nachfragen") helfen marginal -- die Genauigkeit steigt auf 25,8 Prozent, was unter Zufallsniveau bleibt. In 16 Prozent der Fälle spammen die Modelle Rückfragen bis zum Step-Limit, ohne dass die Qualität steigt.

Die Verbindung zu Coding-Agenten

Der Befund passt unangenehm gut zu dem, was Edwards und Schuster Anfang April für Coding-Agenten zeigten (siehe forschung/papers/2026-04-02-ask-or-assume-coding-agents.md): Auch dort sinkt die Performance, wenn der Agent unterspezifizierte Aufgaben allein lösen muss, und ein separater Agent für Unsicherheits-Erkennung hebt die Resolve Rate signifikant an. Beide Studien zeigen denselben strukturellen Fehler -- nur in unterschiedlichen Modalitäten. LLMs sind auf Lieferung trainiert, nicht auf Klärung. Egal ob Code oder Pixel.

Was Engineers daraus mitnehmen

Einordnung

ProactiveBench ist im Kern ein Reliability-Benchmark, kein Halluzinations-Benchmark im klassischen Sinn -- aber er adressiert die Wurzel desselben Problems. Halluzinationen entstehen nicht nur, weil Modelle erfinden, sondern weil sie keine Sprache für "Ich kann das nicht sehen" haben. Solange Vision-Agenten in Produktion das Schweigen oder die Rückfrage als Niederlage interpretieren, werden sie weiter raten -- und zwar selbstbewusst. Für Use Cases wie OCR-Pipelines, Robot Vision, medizinische Bildauswertung oder Quality-Control-Agenten ist das nicht akzeptabel.

Die Studie liefert zwei unbequeme Botschaften zugleich: Das Problem ist mit Prompting allein nicht zu lösen, und größere Modelle helfen nicht. Aber sie liefert auch einen Hoffnungsschimmer: Mit relativ wenig Trainingsdaten und einer sauber kalibrierten RL-Reward lässt sich Proaktivität beibringen. Bis das in den großen Foundation Models ankommt, bleibt es Aufgabe der Anwendungsschicht, das Verhalten zu erzwingen.

Quellen

Nach oben