9. April 2026

WildToolBench: Kein LLM meistert Tool-Einsatz unter realistischen Bedingungen

Peijie Yu, Wei Liu et al. legen mit WildToolBench einen Benchmark vor, der LLM-Tool-Einsatz unter realistischen Bedingungen evaluiert. Das Ergebnis ist ernuechternd: Von 57 getesteten Modellen erreicht keines mehr als 15% Accuracy. Die Ursache liegt nicht in der Komplexitaet der Tools selbst, sondern in der chaotischen, mehrdeutigen Art, wie reale Nutzer mit Systemen interagieren -- die Autoren sprechen von der "wild nature of user behavior".

Kernaussagen

Methodik

WildToolBench basiert auf echten Nutzer-Interaktionen, die aus realen Anwendungsszenarien gesammelt und kuratiert wurden. Der Benchmark evaluiert die Faehigkeit von LLMs, aus mehrdeutigen, multi-turn Dialogen die korrekte Abfolge von Tool-Aufrufen abzuleiten. Die Evaluation umfasst 57 Modelle unterschiedlicher Groesse und Architektur. Im Gegensatz zu synthetischen Benchmarks, die einzelne Tool-Aufrufe mit klaren Parametern testen, prueft WildToolBench die gesamte Kette: Absichtserkennung, Tool-Auswahl, Parameter-Extraktion, Orchestrierung und Ergebnisintegration.

Relevanz fuer die Praxis

Quellen

Nach oben