Das Paper "ProdCodeBench: A Production-Derived Benchmark for Evaluating AI Coding Agents" stellt einen neuen Benchmark vor, der AI-Coding-Agenten anhand realer Produktionscode-Aenderungen evaluiert -- nicht anhand synthetischer Aufgaben oder kuratierter Issues.
Kernaussagen
- Bestehende Benchmarks (SWE-Bench, HumanEval) bilden die Realitaet professioneller Softwareentwicklung ungenuegend ab: Sie testen isolierte Funktionen oder Issues, nicht den Alltag aus Refactoring, Feature-Erweiterungen und Cross-File-Aenderungen
- ProdCodeBench extrahiert Aufgaben direkt aus echten Production-Commits und Pull Requests, inklusive Multi-File-Changes und Build-System-Interaktionen
- Die Evaluation zeigt, dass Modelle, die auf SWE-Bench gut abschneiden, bei Produktionsaufgaben deutlich schlechter performen -- besonders bei Aufgaben, die Kontextverstaendnis ueber mehrere Dateien erfordern
- Der Benchmark misst nicht nur funktionale Korrektheit, sondern auch Code-Qualitaet, Testabdeckung und Konsistenz mit bestehenden Patterns
Methodik
ProdCodeBench extrahiert Aufgaben aus realen Produktionssitzungen mit AI-Coding-Assistenten und umfasst sieben Programmiersprachen. Die Kuratierung nutzt LLM-basierte Aufgabenklassifikation, Testrelevanz-Validierung und Multi-Run-Stabilitaetspruefungen. Vier Foundation-Modelle erreichen Loesungsraten von 53,2% bis 72,2%, wobei Modelle mit Verifikationstools (Testausfuehrung, statische Analyse) hoehere Erfolgsquoten erzielen.
Relevanz fuer die Praxis
ProdCodeBench beantwortet die Frage, die jeder Entwickler hat: "Kann dieser Agent die Art von Arbeit, die ich taeglich mache?" Statt "schreibe eine Sortierfunktion" misst der Benchmark "fuege dieses Feature zu einer bestehenden Codebase hinzu, ohne bestehende Tests zu brechen".
Fuer die Auswahl von Coding-Agenten und Modellen ist das eine direkt relevante Metrik. SWE-Bench-Scores sagen wenig darueber aus, ob ein Agent in einer realen Codebase produktiv arbeiten kann.
Quellen
- ProdCodeBench: A Production-Derived Benchmark for Evaluating AI Coding Agents - Smriti Jha et al., ArXiv cs.SE, April 2026