ToolMisuseBench: Benchmark fuer Tool-Missbrauch und Recovery in AI-Agenten

3. April 2026

Das Paper "ToolMisuseBench: An Offline Deterministic Benchmark for Tool Misuse and Recovery in Agentic Systems" adressiert eine Luecke in der Evaluierung von AI-Agenten: Waehrend bestehende Benchmarks messen, ob Agenten Tools korrekt einsetzen, prueft ToolMisuseBench, wie Agenten reagieren, wenn Tools falsch eingesetzt werden -- und ob sie sich davon erholen koennen.

Kernaussagen

Bestehende Agent-Benchmarks (SWE-Bench, GAIA) messen Erfolg, nicht Fehlerbehandlung -- aber in der Praxis verbringen Agenten erhebliche Zeit mit Recovery nach fehlgeschlagenen Tool-Aufrufen
ToolMisuseBench definiert deterministische Szenarien fuer Tool-Missbrauch: falsche Parameter, falsche Tool-Wahl, ueberfluessige Aufrufe, fehlende Voraussetzungen
Der Benchmark misst drei Dimensionen: Fehler-Erkennung (bemerkt der Agent den Fehler?), Recovery-Faehigkeit (kann er sich erholen?) und Eskalation (gibt er auf, wenn er nicht weiterkommt?)
Die Ergebnisse zeigen erhebliche Unterschiede zwischen Modellen -- besonders bei der Eskalation statt endloser Retry-Loops

Methodik

Der Benchmark umfasst 6.800 Aufgaben in CRUD-, Retrieval-, Datei- und Scheduling-Umgebungen mit reproduzierbarer Fehlerinjektion. Alle Tests laufen unter expliziten Schritt-, Aufruf- und Retry-Budgets -- keine echten API-Aufrufe, keine Varianz durch externe Services.

Baseline-Ergebnisse zeigen, dass schema-bewusste Methoden bei spezifischen Fehlern Recovery-Gewinne erzielen, waehrend die Gesamterfolgsquote unter strikten Autorisierungs- und Fehlerszenarien begrenzt bleibt.

Relevanz fuer die Praxis

Fuer Entwickler, die AI-Agenten in Produktion einsetzen, ist die Recovery-Faehigkeit oft wichtiger als die Erfolgsrate im Idealfall. Ein Agent, der bei Fehlern in endlose Loops verfaellt oder stillschweigend falsche Ergebnisse liefert, ist gefaehrlicher als einer, der bei Unsicherheit eskaliert.

ToolMisuseBench bietet eine konkrete Metrik fuer dieses Verhalten und kann bei der Modellauswahl helfen: Welches Modell erholt sich am besten von unerwarteten Tool-Antworten? Das ist die Frage, die in der Praxis oft den Unterschied zwischen brauchbar und unbrauchbar macht.

Quellen

ToolMisuseBench: An Offline Deterministic Benchmark for Tool Misuse and Recovery in Agentic Systems - Akshey Sigdel, Rista Baral, ArXiv cs.SE, April 2026

Nach oben