3. April 2026

Das Paper "ProdCodeBench: A Production-Derived Benchmark for Evaluating AI Coding Agents" stellt einen neuen Benchmark vor, der AI-Coding-Agenten anhand realer Produktionscode-Aenderungen evaluiert -- nicht anhand synthetischer Aufgaben oder kuratierter Issues.

Kernaussagen

Methodik

ProdCodeBench extrahiert Aufgaben aus realen Produktionssitzungen mit AI-Coding-Assistenten und umfasst sieben Programmiersprachen. Die Kuratierung nutzt LLM-basierte Aufgabenklassifikation, Testrelevanz-Validierung und Multi-Run-Stabilitaetspruefungen. Vier Foundation-Modelle erreichen Loesungsraten von 53,2% bis 72,2%, wobei Modelle mit Verifikationstools (Testausfuehrung, statische Analyse) hoehere Erfolgsquoten erzielen.

Relevanz fuer die Praxis

ProdCodeBench beantwortet die Frage, die jeder Entwickler hat: "Kann dieser Agent die Art von Arbeit, die ich taeglich mache?" Statt "schreibe eine Sortierfunktion" misst der Benchmark "fuege dieses Feature zu einer bestehenden Codebase hinzu, ohne bestehende Tests zu brechen".

Fuer die Auswahl von Coding-Agenten und Modellen ist das eine direkt relevante Metrik. SWE-Bench-Scores sagen wenig darueber aus, ob ein Agent in einer realen Codebase produktiv arbeiten kann.

Quellen

Nach oben