2. April 2026

SWE-CI -- Koennen Coding-Agenten langfristige Codebase-Wartung?

SWE-bench hat eine blinde Stelle: Es testet, ob ein Agent einen einzelnen Bug fixen kann. Reale Software-Wartung sieht anders aus. Anforderungen aendern sich, Features werden iterativ erweitert, technische Schulden haeufen sich an. Jialong Chen, Xander Xu, Hu Wei, Chuan Chen und Bing Zhao stellen mit SWE-CI einen Benchmark vor, der genau diese Luecke schliesst -- und die Ergebnisse zeigen, dass aktuelle LLMs ein fundamentales Architektur-Problem haben.

Kernaussagen

SWE-CI verschiebt die Bewertung von statischer Einmal-Korrektheit hin zu dynamischer Langzeit-Wartbarkeit. Der Benchmark umfasst 100 Tasks aus 68 realen Python-Repositories mit mindestens 3 Jahren Aktivitaet und 500+ GitHub-Stars. Jeder Task bildet eine Evolutionsgeschichte von durchschnittlich 233 Tagen und 71 aufeinanderfolgenden Commits ab -- mit mindestens 1.000 geaenderten Codezeilen.

Das zentrale Ergebnis ist ein Paradoxon: 15 von 20 getesteten Modellen uebertreffen Menschen bei Pylint-Scores, also bei oberflaechlichen Coding-Konventionen wie Namensgebung, Formatierung und Style-Regeln. Gleichzeitig schneiden alle 20 Modelle schlechter ab als Menschen beim Maintainability Index, der die architektonische Qualitaet misst -- Modularitaet, Kopplung, Erweiterbarkeit.

LLMs erzeugen 20-30% kuerzere Patches als menschliche Entwickler. Was nach Effizienz klingt, entpuppt sich als Problem: Die Agenten optimieren auf minimale Aenderungen, die die unmittelbaren Anforderungen erfuellen, investieren aber nicht in die langfristige Wartbarkeit der Architektur. Sie loesen das heutige Problem, schaffen aber die technischen Schulden von morgen.

Bei der Regressionskontrolle -- dem Vermeiden, dass neue Aenderungen bestehende Tests brechen -- erreichen die meisten Modelle eine Zero-Regression-Rate unter 0,25. Nur die Claude-Opus-Varianten ueberschreiten 50%. Das bedeutet: Bei drei von vier Iterationen fuehren die Aenderungen der meisten Modelle zu Regressionen in bestehender Funktionalitaet.

Methodik

Der Benchmark nutzt ein Dual-Agent-Protokoll, das reale CI-Workflows nachbildet. Ein Architect-Agent identifiziert funktionale Luecken im aktuellen Code und formuliert Anforderungen. Ein Programmer-Agent setzt diese um. Dann wird die Codebase gegen die Testsuite ausgefuehrt, und der Zyklus beginnt von vorn -- ueber dutzende Iterationen pro Task.

Zwei neue Metriken machen die Bewertung realistisch. Der Normalized Change misst Fortschritt asymmetrisch: Verbesserungen werden relativ zum Abstand zum Ziel skaliert, Regressionen relativ zu den initial bestehenden Tests. Das bestraft Rueckschritte haerter als es Fortschritte belohnt -- genau wie in der Realitaet, wo ein kaputter Build mehr schadet als ein neues Feature nuetzt. Der EvoScore aggregiert die Leistung ueber alle Iterationen und gewichtet spaetere Iterationen staerker, was langfristige Stabilitaet belohnt.

20 Modelle von 8 Anbietern wurden getestet, darunter Claude Opus, GPT-Reihe, DeepSeek, Qwen, GLM-5, Kimi, MiniMax und Doubao. Claude Opus zeigt die staerkste Leistung, insbesondere bei der Regressionskontrolle.

Relevanz fuer die Praxis

Einmal-Benchmarks genuegen nicht mehr. Wer Coding-Agenten fuer reale Projekte evaluiert, sollte Langzeit-Wartungsszenarien testen. Ein Agent, der auf SWE-bench glaenzt, kann bei iterativer Weiterentwicklung versagen. SWE-CI liefert dafuer einen konkreten, reproduzierbaren Rahmen.

Das Coding-Style-Paradoxon ist ein Warnsignal. Sauberer formatierter Code ist nicht dasselbe wie wartbarer Code. LLMs haben gelernt, Linter-Regeln zu befolgen -- aber nicht, Architekturen zu entwerfen. Wer AI-generierten Code uebernimmt, sollte besonders die strukturelle Qualitaet pruefen: Modularitaet, Abstraktionsebenen, Erweiterbarkeit.

Minimale Patches sind nicht immer optimale Patches. Die Tendenz der Modelle, moeglichst wenig Code zu aendern, ist bei Einzel-Bugfixes sinnvoll. Bei fortlaufender Entwicklung fuehrt sie zu technischen Schulden. Teams, die Coding-Agenten einsetzen, sollten explizite Refactoring-Zyklen einplanen -- die Agenten werden das nicht von sich aus tun.

Quellen

Nach oben