BenchBench -- Automatische Benchmark-Generierung gegen Kontamination und Saettigung
Yandan Zheng, Haoran Luo, Zhenghong Lin, Wenjin Liu und Luu Anh Tuan haben am 21. Maerz 2026 BenchBench veroeffentlicht -- ein Framework zur automatisierten Generierung von Benchmarks, das zwei zentrale Probleme der LLM-Evaluierung adressiert: Kontamination (Modelle haben Benchmark-Daten im Training gesehen) und Saettigung (bestehende Benchmarks differenzieren nicht mehr zwischen Modellen).
Kernaussagen
BenchBench generiert ueber die Pipeline 16.700 Test-Items, von denen nach automatisierter Filterung rund 15.000 beibehalten werden. Das ueberraschendste Ergebnis betrifft die Beziehung zwischen Test-Design und Antwort-Faehigkeit: Die Korrelation zwischen der Faehigkeit eines Modells, gute Benchmark-Items zu designen, und seiner Faehigkeit, Benchmark-Items korrekt zu beantworten, ist mit einem Spearman-rho von circa 0.37 nur maessig. Ein Modell, das selbst gut abschneidet, ist also nicht automatisch ein guter Testdesigner. Diese Erkenntnis hat direkte Auswirkungen darauf, wie man LLM-generierte Benchmarks aufsetzen sollte.
Methodik
Die Pipeline umfasst drei Stufen. In der ersten Phase werden aus bestehenden Benchmarks strukturierte Domain-Cards extrahiert -- formalisierte Beschreibungen der getesteten Faehigkeiten, Schwierigkeitsgrade und Frageformate. In der zweiten Phase nutzen mehrere Designer-LLMs diese Domain-Cards, um kontrolliert neue Testsuiten zu generieren. Die Verwendung mehrerer Designer-Modelle sorgt fuer Diversitaet und reduziert systematische Verzerrungen einzelner Modelle. In der dritten Phase validiert ein Multi-Model-Panel die generierten Items: Mehrere Modelle beantworten jedes Item, und anhand der Antwortmuster werden fehlerhafte, triviale oder mehrdeutige Items aussortiert. Das Ergebnis sind Benchmarks, die per Konstruktion frei von Kontamination sind, weil sie zum Zeitpunkt der Modelltrainings nicht existierten.
Relevanz fuer die Praxis
Benchmark-Kontamination untergräbt die Aussagekraft von Leaderboards und Modellvergleichen. Wenn ein Modell bei MMLU 90% erreicht, aber einen signifikanten Teil der Fragen aus dem Training kennt, ist der Wert wenig informativ. BenchBench bietet einen systematischen Ausweg: frische, unkontaminierte Tests auf Knopfdruck. Fuer Teams, die Modelle fuer ihren Use-Case evaluieren, ist der Ansatz besonders wertvoll -- die Domain-Card-Methodik laesst sich auf eigene Faehigkeitsprofile zuschneiden. Die maessige Korrelation zwischen Design- und Antwort-Faehigkeit mahnt zudem zur Vorsicht bei der gaengigen Praxis, das staerkste verfuegbare Modell auch als Benchmark-Generator einzusetzen.