8. April 2026

GitHub Copilot CLI: Rubber Duck Review Agent

Seit dem 6. April 2026 bietet GitHub Copilot CLI ein neues experimentelles Feature: den Rubber Duck Review Agent. Die Idee ist einfach -- ein zweites KI-Modell aus einer anderen Modellfamilie prueft die Plaene und Aenderungen der primaeren Copilot-Session.

Was der Rubber Duck Agent macht

Der Agent funktioniert als automatisierter Code-Reviewer innerhalb der CLI. Er bewertet die Plaene der laufenden Copilot-Session und liefert eine kurze, fokussierte Liste von Bedenken:

Uebersehene Details
Fragwuerdige Annahmen
Edge Cases, die beruecksichtigt werden sollten

Der entscheidende Punkt: Das Review-Modell stammt aus einer anderen Modellfamilie als das primaere Modell. Damit vermeidet man die blinden Flecken, die entstehen, wenn dasselbe Modell seinen eigenen Output bewertet.

Aktivierung

Der Rubber Duck Agent ist ueber /experimental in der Copilot CLI verfuegbar. Er laeuft neben anderen experimentellen Features und muss explizit aktiviert werden.

Benchmark-Ergebnisse

GitHub hat den Ansatz mit SWE-Bench Pro getestet. Die Kombination Claude Sonnet 4.6 (primaer) + GPT-5.4 (Rubber Duck) zeigt messbare Verbesserungen:

Schliesst 74,7% der Performance-Luecke zwischen Sonnet 4.6 und dem teureren Opus 4.6
Bei komplexen Problemen (3+ Dateien, 70+ Schritte): 3,8% hoehere Loesungsquote gegenueber Sonnet allein
Bei den schwierigsten Problemen: 4,8% Verbesserung

Der Effekt ist bei einfachen Aufgaben gering. Je komplexer das Problem, desto staerker profitiert man vom zweiten Modell.

Einordnung

Der Ansatz adressiert ein bekanntes Problem bei KI-gestuetzter Codegenerierung: Modelle erkennen ihre eigenen Fehler schlecht. Ein zweites Modell mit anderen Staerken und Schwaechen erkennt andere Fehlerklassen. Das ist im Grunde das Peer-Review-Prinzip, auf KI-Modelle uebertragen.

Fuer den Entwickler-Workflow bedeutet das: Code-Reviews koennen frueher im Prozess stattfinden -- direkt in der CLI, bevor der Code ueberhaupt committet wird. Ob das in der Praxis den Overhead eines zweiten Modellaufrufs rechtfertigt, haengt von der Komplexitaet der Aufgabe ab.

Quellen

GitHub Copilot CLI adds Rubber Duck review agent

Nach oben