WildToolBench: Kein LLM meistert Tool-Einsatz unter realistischen Bedingungen
Peijie Yu, Wei Liu et al. legen mit WildToolBench einen Benchmark vor, der LLM-Tool-Einsatz unter realistischen Bedingungen evaluiert. Das Ergebnis ist ernuechternd: Von 57 getesteten Modellen erreicht keines mehr als 15% Accuracy. Die Ursache liegt nicht in der Komplexitaet der Tools selbst, sondern in der chaotischen, mehrdeutigen Art, wie reale Nutzer mit Systemen interagieren -- die Autoren sprechen von der "wild nature of user behavior".
Kernaussagen
- Fundamentale Luecke zwischen Benchmarks und Realitaet: Bestehende Tool-Use-Benchmarks testen isolierte, klar formulierte Anfragen. WildToolBench konfrontiert Modelle stattdessen mit dem vollen Spektrum realer Nutzer-Interaktionen -- und deckt auf, wie wenig aktuelle LLMs darauf vorbereitet sind.
- Drei kritische Herausforderungen: Das Paper identifiziert drei Kernprobleme, an denen alle getesteten Modelle scheitern:
- Kompositorische Tasks: Nutzer stellen Anfragen, die mehrere Tools in der richtigen Reihenfolge und mit korrekter Datenweiterleitung erfordern. Effiziente Tool-Orchestrierung gelingt keinem Modell zuverlaessig.
- Implizite Absichten: Die eigentliche Nutzerabsicht verteilt sich ueber mehrere Dialog-Turns und wird nie explizit formuliert. Modelle muessen Kontext aggregieren und Rueckschluesse ziehen.
- Instruktions-Uebergaenge: Reale Gespraeche bestehen aus einem Mix von konkreten Queries, Klaerungsfragen und Smalltalk. Modelle muessen erkennen, wann ein Tool-Aufruf noetig ist und wann nicht.
- 15% als Obergrenze: Selbst die leistungsfaehigsten Modelle bleiben unter 15% Accuracy. Die Ergebnisse zeigen, dass die Herausforderung nicht durch Skalierung allein loesbar ist -- es fehlt an grundlegenden Faehigkeiten im Umgang mit Ambiguitaet und Kontext.
Methodik
WildToolBench basiert auf echten Nutzer-Interaktionen, die aus realen Anwendungsszenarien gesammelt und kuratiert wurden. Der Benchmark evaluiert die Faehigkeit von LLMs, aus mehrdeutigen, multi-turn Dialogen die korrekte Abfolge von Tool-Aufrufen abzuleiten. Die Evaluation umfasst 57 Modelle unterschiedlicher Groesse und Architektur. Im Gegensatz zu synthetischen Benchmarks, die einzelne Tool-Aufrufe mit klaren Parametern testen, prueft WildToolBench die gesamte Kette: Absichtserkennung, Tool-Auswahl, Parameter-Extraktion, Orchestrierung und Ergebnisintegration.
Relevanz fuer die Praxis
- Agent-Frameworks muessen kompensieren: Die Ergebnisse zeigen, dass aktuelle Agent-Frameworks die Schwaeche der Modelle durch Strukturierung kompensieren -- klare Prompts, vordefinierte Tool-Ketten, explizite Parameteruebergabe. Diese Strukturierung funktioniert, verschleiert aber, wie fragil die zugrundeliegende Modellleistung ist.
- Mehrdeutige Instruktionen sind der Normalfall: In realen Szenarien formulieren Nutzer selten praezise Tool-Anfragen. Jedes produktive Agent-System muss robust mit Ambiguitaet umgehen -- durch Rueckfragen, Kontextverstaendnis oder konservative Fallback-Strategien.
- Tool-Orchestrierung ist fundamental schwieriger als angenommen: Die Kombination mehrerer Tools in der richtigen Reihenfolge mit korrekter Datenweiterleitung bleibt ein ungeloestes Problem. Teams, die Multi-Tool-Workflows bauen, sollten mit hohen Fehlerquoten rechnen und entsprechende Validierung einplanen.
- Benchmarks ueberschaetzen Praxistauglichkeit systematisch: Wer sich bei der Modellauswahl auf Ergebnisse aus synthetischen Tool-Use-Benchmarks verlaesst, erhaelt ein verzerrtes Bild. WildToolBench liefert ein realistischeres Mass fuer die tatsaechliche Einsatzbereitschaft.