GitHub Copilot CLI: Rubber Duck Review Agent
Seit dem 6. April 2026 bietet GitHub Copilot CLI ein neues experimentelles Feature: den Rubber Duck Review Agent. Die Idee ist einfach -- ein zweites KI-Modell aus einer anderen Modellfamilie prueft die Plaene und Aenderungen der primaeren Copilot-Session.
Was der Rubber Duck Agent macht
Der Agent funktioniert als automatisierter Code-Reviewer innerhalb der CLI. Er bewertet die Plaene der laufenden Copilot-Session und liefert eine kurze, fokussierte Liste von Bedenken:
- Uebersehene Details
- Fragwuerdige Annahmen
- Edge Cases, die beruecksichtigt werden sollten
Der entscheidende Punkt: Das Review-Modell stammt aus einer anderen Modellfamilie als das primaere Modell. Damit vermeidet man die blinden Flecken, die entstehen, wenn dasselbe Modell seinen eigenen Output bewertet.
Aktivierung
Der Rubber Duck Agent ist ueber /experimental in der Copilot CLI verfuegbar. Er laeuft neben anderen experimentellen Features und muss explizit aktiviert werden.
Benchmark-Ergebnisse
GitHub hat den Ansatz mit SWE-Bench Pro getestet. Die Kombination Claude Sonnet 4.6 (primaer) + GPT-5.4 (Rubber Duck) zeigt messbare Verbesserungen:
- Schliesst 74,7% der Performance-Luecke zwischen Sonnet 4.6 und dem teureren Opus 4.6
- Bei komplexen Problemen (3+ Dateien, 70+ Schritte): 3,8% hoehere Loesungsquote gegenueber Sonnet allein
- Bei den schwierigsten Problemen: 4,8% Verbesserung
Der Effekt ist bei einfachen Aufgaben gering. Je komplexer das Problem, desto staerker profitiert man vom zweiten Modell.
Einordnung
Der Ansatz adressiert ein bekanntes Problem bei KI-gestuetzter Codegenerierung: Modelle erkennen ihre eigenen Fehler schlecht. Ein zweites Modell mit anderen Staerken und Schwaechen erkennt andere Fehlerklassen. Das ist im Grunde das Peer-Review-Prinzip, auf KI-Modelle uebertragen.
Fuer den Entwickler-Workflow bedeutet das: Code-Reviews koennen frueher im Prozess stattfinden -- direkt in der CLI, bevor der Code ueberhaupt committet wird. Ob das in der Praxis den Overhead eines zweiten Modellaufrufs rechtfertigt, haengt von der Komplexitaet der Aufgabe ab.