AI-Modelle raten lieber als zu fragen -- besonders wenn sie nichts sehen
Wer einem Menschen ein Foto zeigt, auf dem das eigentliche Motiv hinter einem Karton verschwindet, bekommt eine simple Reaktion: "Kannst du den Karton wegnehmen?" Multimodale AI-Modelle reagieren anders. Sie raten -- oder verweigern stumm. Das neue Benchmark ProactiveBench von Forschern der Universität Trient (De Min, Roy, Lathuilière, Ricci, Mancini) zeigt, wie systematisch dieses Verhalten ist. Und es ist schlechter, als die Praxis vermuten lässt.
Was die Studie konkret zeigt
Die Autoren bauen aus sieben bestehenden Vision-Datensätzen 18.000 Test-Samples mit über 108.000 Bildern, bei denen die Aufgabe ohne Nachfrage nicht lösbar ist: verdeckte Objekte (ROD, VSOD), uninformative Perspektiven (MVP-N), verrauschte Bilder (ImageNet-C), grobe Skizzen (QuickDraw), zeitliche Mehrdeutigkeiten (ChangeIt) und Kamerabewegungen (MS-COCO). Ein Vorfilter entfernt alles, was ein Modell beim ersten Versuch korrekt lösen könnte. Bestehen kann den Benchmark nur, wer aktiv um zusätzliche Information bittet -- etwa darum, das verdeckende Objekt zu entfernen oder die Kamera zu bewegen.
22 multimodale Modelle treten an, von LLaVA-OV über Qwen2.5-VL und InternVL3 bis zu GPT-4.1, GPT-5.2 und o4-mini. Im Referenz-Setting mit voll sichtbaren Objekten lösen sie im Schnitt 79,8 Prozent der Aufgaben. Auf ProactiveBench bricht der Wert auf 17,5 Prozent ein. Im ROD-Datensatz mit verdeckten Objekten fällt die Genauigkeit von 98,3 auf 8,2 Prozent. Die Modelle können die Objekte erkennen -- sie kommen nur nicht auf die Idee, jemanden um Hilfe zu bitten.
Besonders unangenehm: Modellgröße hilft nicht. InternVL3-1B schlägt InternVL3-8B (27,1 vs. 12,7 Prozent). Das ältere LLaVA-1.5-7B liegt vor dem deutlich neueren LLaVA-OV-72B. Auch das Backbone macht den Unterschied: LLaVA-NeXT mit Vicuna kommt auf 19,3 Prozent, dasselbe Setup mit Mistral nur auf 4,5. Bei den Closed-Source-Modellen erreichen GPT-Varianten die besten Werte, wobei die Autoren bei MS-COCO Hinweise auf Datenkontamination flagen.
Die härteste Erkenntnis steckt im Stress-Test: Die Forscher ersetzten plausible Rückfragen durch sinnlose Optionen ("Spule das Video zurück" bei einer Skizzen-Aufgabe). Modelle, die zuvor "proaktiv" wirkten, griffen genauso bereitwillig zu den Unsinns-Optionen. LLaVA-NeXT Vicuna schlug bei Blödsinn-Optionen sogar öfter zu (49 statt 37 Prozent). Was wie Proaktivität aussieht, ist also keine echte Unsicherheits-Detektion -- es ist nur eine niedrigere Hemmschwelle beim Raten.
Warum Modelle lieber raten
Drei plausible Ursachen:
- RLHF-Bias zur Hilfsbereitschaft. Annotatoren belohnen Antworten, nicht Rückfragen. "Ich weiß es nicht" oder "Ich brauche mehr Information" sieht in Präferenz-Daten meist schlechter aus als ein selbstbewusst formulierter Tipp.
- Fehlende Kalibrierung im Trainingssignal. Loss-Funktionen bestrafen falsche Antworten und richtige Antworten gleichermaßen schwach -- aber sie bestrafen keine Antwort gar nicht. Ein Modell, das schweigt oder rückfragt, gibt das Belohnungssignal auf.
- Negativ-Bias durch Kontext. Die Studie zeigt einen unerwarteten Effekt: Konversationshistorien und In-Context-Beispiele verschlechtern das Verhalten, weil Modelle vorherige proaktive Aktionen mechanisch nachplappern statt aus ihnen zu lernen. Few-Shot ist hier ein Bumerang.
Hinweise im Prompt ("Du darfst nachfragen") helfen marginal -- die Genauigkeit steigt auf 25,8 Prozent, was unter Zufallsniveau bleibt. In 16 Prozent der Fälle spammen die Modelle Rückfragen bis zum Step-Limit, ohne dass die Qualität steigt.
Die Verbindung zu Coding-Agenten
Der Befund passt unangenehm gut zu dem, was Edwards und Schuster Anfang April für Coding-Agenten zeigten (siehe forschung/papers/2026-04-02-ask-or-assume-coding-agents.md): Auch dort sinkt die Performance, wenn der Agent unterspezifizierte Aufgaben allein lösen muss, und ein separater Agent für Unsicherheits-Erkennung hebt die Resolve Rate signifikant an. Beide Studien zeigen denselben strukturellen Fehler -- nur in unterschiedlichen Modalitäten. LLMs sind auf Lieferung trainiert, nicht auf Klärung. Egal ob Code oder Pixel.
Was Engineers daraus mitnehmen
- Vision-Agenten brauchen explizite Clarify-Tools. Genau wie der
clarify-Pfad bei Coding-Agenten. Ohne expliziten Tool-Call nutzt das Modell die Fähigkeit nicht von selbst. - Forced Confidence Scores. Eine zweite Inferenz, die nur eine Score zwischen 0 und 1 ausgibt, plus ein Schwellwert, unter dem die Antwort verworfen wird. Self-Reports im selben Call sind unzuverlässig.
- Two-Pass-Pattern mit Verifier. Erst Antwort generieren, dann ein zweites Modell prüfen lassen, ob die visuelle Evidenz die Antwort überhaupt trägt. Bei verdeckten Objekten reicht oft schon ein simpler "Ist das angefragte Objekt im Bild sichtbar? Ja/Nein"-Pass.
- Few-Shot-Skepsis. Die Studie zeigt klar: Beispiele in der History können das Verhalten verschlechtern, weil die Modelle die Aktionen kopieren statt das Prinzip zu verstehen. Bei Unsicherheits-Verhalten lieber System-Prompt-Regeln als In-Context-Demos.
- GRPO als Ausweg für Eigenbau-Modelle. Wer eigene Vision-Modelle fine-tunet, kann das Verhalten antrainieren. Die Autoren zeigen mit Group-Relative Policy Optimization auf 27.000 Beispielen, dass beide Test-Modelle (LLaVA-NeXT-Mistral-7B und Qwen2.5-VL-3B) anschließend alle 22 Baseline-Modelle schlagen, inklusive o4-mini (37,4 bzw. 38,6 vs. 34,0 Prozent). Entscheidend ist die Reward-Funktion: korrekte Antwort schlägt Rückfrage, sodass Nachfragen nur dann belohnt wird, wenn das Modell wirklich blockiert ist. Sonst entsteht ein Modell, das alles infrage stellt.
Einordnung
ProactiveBench ist im Kern ein Reliability-Benchmark, kein Halluzinations-Benchmark im klassischen Sinn -- aber er adressiert die Wurzel desselben Problems. Halluzinationen entstehen nicht nur, weil Modelle erfinden, sondern weil sie keine Sprache für "Ich kann das nicht sehen" haben. Solange Vision-Agenten in Produktion das Schweigen oder die Rückfrage als Niederlage interpretieren, werden sie weiter raten -- und zwar selbstbewusst. Für Use Cases wie OCR-Pipelines, Robot Vision, medizinische Bildauswertung oder Quality-Control-Agenten ist das nicht akzeptabel.
Die Studie liefert zwei unbequeme Botschaften zugleich: Das Problem ist mit Prompting allein nicht zu lösen, und größere Modelle helfen nicht. Aber sie liefert auch einen Hoffnungsschimmer: Mit relativ wenig Trainingsdaten und einer sauber kalibrierten RL-Reward lässt sich Proaktivität beibringen. Bis das in den großen Foundation Models ankommt, bleibt es Aufgabe der Anwendungsschicht, das Verhalten zu erzwingen.
Quellen
- The Decoder: AI models would rather guess than ask for help, researchers find
- De Min, Roy, Lathuilière, Ricci, Mancini: ProactiveBench -- Benchmarking Proactiveness in Multimodal Large Language Models, arXiv:2603.19466
- Verwandter Artikel im Wiki:
forschung/papers/2026-04-02-ask-or-assume-coding-agents.md