Das Paper "ToolMisuseBench: An Offline Deterministic Benchmark for Tool Misuse and Recovery in Agentic Systems" adressiert eine Luecke in der Evaluierung von AI-Agenten: Waehrend bestehende Benchmarks messen, ob Agenten Tools korrekt einsetzen, prueft ToolMisuseBench, wie Agenten reagieren, wenn Tools falsch eingesetzt werden -- und ob sie sich davon erholen koennen.
Kernaussagen
- Bestehende Agent-Benchmarks (SWE-Bench, GAIA) messen Erfolg, nicht Fehlerbehandlung -- aber in der Praxis verbringen Agenten erhebliche Zeit mit Recovery nach fehlgeschlagenen Tool-Aufrufen
- ToolMisuseBench definiert deterministische Szenarien fuer Tool-Missbrauch: falsche Parameter, falsche Tool-Wahl, ueberfluessige Aufrufe, fehlende Voraussetzungen
- Der Benchmark misst drei Dimensionen: Fehler-Erkennung (bemerkt der Agent den Fehler?), Recovery-Faehigkeit (kann er sich erholen?) und Eskalation (gibt er auf, wenn er nicht weiterkommt?)
- Die Ergebnisse zeigen erhebliche Unterschiede zwischen Modellen -- besonders bei der Eskalation statt endloser Retry-Loops
Methodik
Der Benchmark umfasst 6.800 Aufgaben in CRUD-, Retrieval-, Datei- und Scheduling-Umgebungen mit reproduzierbarer Fehlerinjektion. Alle Tests laufen unter expliziten Schritt-, Aufruf- und Retry-Budgets -- keine echten API-Aufrufe, keine Varianz durch externe Services.
Baseline-Ergebnisse zeigen, dass schema-bewusste Methoden bei spezifischen Fehlern Recovery-Gewinne erzielen, waehrend die Gesamterfolgsquote unter strikten Autorisierungs- und Fehlerszenarien begrenzt bleibt.
Relevanz fuer die Praxis
Fuer Entwickler, die AI-Agenten in Produktion einsetzen, ist die Recovery-Faehigkeit oft wichtiger als die Erfolgsrate im Idealfall. Ein Agent, der bei Fehlern in endlose Loops verfaellt oder stillschweigend falsche Ergebnisse liefert, ist gefaehrlicher als einer, der bei Unsicherheit eskaliert.
ToolMisuseBench bietet eine konkrete Metrik fuer dieses Verhalten und kann bei der Modellauswahl helfen: Welches Modell erholt sich am besten von unerwarteten Tool-Antworten? Das ist die Frage, die in der Praxis oft den Unterschied zwischen brauchbar und unbrauchbar macht.
Quellen
- ToolMisuseBench: An Offline Deterministic Benchmark for Tool Misuse and Recovery in Agentic Systems - Akshey Sigdel, Rista Baral, ArXiv cs.SE, April 2026