ProdCodeBench: Produktionscode statt Puzzles als Benchmark fuer Coding-Agenten

3. April 2026

Das Paper "ProdCodeBench: A Production-Derived Benchmark for Evaluating AI Coding Agents" stellt einen neuen Benchmark vor, der AI-Coding-Agenten anhand realer Produktionscode-Aenderungen evaluiert -- nicht anhand synthetischer Aufgaben oder kuratierter Issues.

Kernaussagen

Bestehende Benchmarks (SWE-Bench, HumanEval) bilden die Realitaet professioneller Softwareentwicklung ungenuegend ab: Sie testen isolierte Funktionen oder Issues, nicht den Alltag aus Refactoring, Feature-Erweiterungen und Cross-File-Aenderungen
ProdCodeBench extrahiert Aufgaben direkt aus echten Production-Commits und Pull Requests, inklusive Multi-File-Changes und Build-System-Interaktionen
Die Evaluation zeigt, dass Modelle, die auf SWE-Bench gut abschneiden, bei Produktionsaufgaben deutlich schlechter performen -- besonders bei Aufgaben, die Kontextverstaendnis ueber mehrere Dateien erfordern
Der Benchmark misst nicht nur funktionale Korrektheit, sondern auch Code-Qualitaet, Testabdeckung und Konsistenz mit bestehenden Patterns

Methodik

ProdCodeBench extrahiert Aufgaben aus realen Produktionssitzungen mit AI-Coding-Assistenten und umfasst sieben Programmiersprachen. Die Kuratierung nutzt LLM-basierte Aufgabenklassifikation, Testrelevanz-Validierung und Multi-Run-Stabilitaetspruefungen. Vier Foundation-Modelle erreichen Loesungsraten von 53,2% bis 72,2%, wobei Modelle mit Verifikationstools (Testausfuehrung, statische Analyse) hoehere Erfolgsquoten erzielen.

Relevanz fuer die Praxis

ProdCodeBench beantwortet die Frage, die jeder Entwickler hat: "Kann dieser Agent die Art von Arbeit, die ich taeglich mache?" Statt "schreibe eine Sortierfunktion" misst der Benchmark "fuege dieses Feature zu einer bestehenden Codebase hinzu, ohne bestehende Tests zu brechen".

Fuer die Auswahl von Coding-Agenten und Modellen ist das eine direkt relevante Metrik. SWE-Bench-Scores sagen wenig darueber aus, ob ein Agent in einer realen Codebase produktiv arbeiten kann.

Quellen

ProdCodeBench: A Production-Derived Benchmark for Evaluating AI Coding Agents - Smriti Jha et al., ArXiv cs.SE, April 2026

Nach oben