Terminal Agents Suffice for Enterprise Automation -- Einfache Shell-Agenten schlagen MCP und GUI
Patrice Bechard et al. vergleichen in diesem Paper drei Agent-Architekturen fuer Enterprise-Automatisierung: Terminal-Agenten (Shell + Dateisystem), MCP-Tool-Agenten und GUI-basierte Web-Agenten. Das zentrale Ergebnis ist ueberraschend klar: Ein einfacher Coding-Agent, der nur ueber ein Terminal und direkten API-Zugriff verfuegt, erreicht auf drei produktionsnahen Plattformen (ServiceNow, GitLab, ERPNext) vergleichbare oder bessere Erfolgsraten als aufwendigere Architekturen -- bei bis zu 9-fach geringeren Kosten.
Kernaussagen
MCP-Agenten erzielen die schlechtesten Ergebnisse. Auf ServiceNow mit 93 verfuegbaren Tools erreichen sie nur 11,5-16,7% Erfolgsrate, waehrend Terminal-Agenten 67,6-76,5% schaffen. Der Grund: MCP-Tools schraenken ein, welche Felder gesetzt und welche Query-Patterns ausgefuehrt werden koennen. Selbst wenn ein Tool fuer eine Operation existiert, begrenzt die starre Schnittstelle die Ausdruecklichkeit gegenueber direktem API-Zugriff.
Bei den Kosten zeigt sich der Unterschied noch deutlicher: Terminal-Agenten kosten auf ERPNext 0,72 USD pro Task gegenueber 6,49 USD fuer Web-Agenten mit Claude Opus. Der guenstigste Gesamtansatz -- Gemini 3.1 Pro als Terminal-Agent -- erreicht 77,5% Erfolgsrate bei 0,09 USD pro Task.
Interessant ist auch der Befund zur Dokumentation: Referenz-Dokumentation, die fuer menschliche Nutzer geschrieben wurde, verschlechtert die Agent-Performance teilweise sogar. Nur task-orientierte, auf API-Operationen zugeschnittene Dokumentation hilft.
Methodik
Die Evaluation umfasst drei produktionsnahe Enterprise-Plattformen mit insgesamt 729 Tasks: ServiceNow (330 Tasks, 93 MCP-Tools, 61.000 Doku-Seiten), GitLab (192 Tasks, 107 MCP-Tools) und ERPNext (207 Tasks, 7 generische CRUD-Tools). Getestet werden vier LLM-Backbones: Claude Sonnet 4.6, Claude Opus 4.6, Gemini 3.1 Pro und GPT-4.1. Die drei Agent-Paradigmen -- Terminal, MCP und Web -- werden unter kontrollierten Bedingungen verglichen. Zusaetzlich werden Hybridagenten, Multi-Agent-Setups und die Wirkung von Skills (persistent gespeicherte Loesungsmuster) untersucht.
Relevanz fuer die Praxis
Dieses Paper hat direkte Konsequenzen fuer Architekturentscheidungen beim Bau von AI-Agenten:
MCP ist kein Allheilmittel. Die Daten zeigen klar, dass eine grosse Anzahl spezialisierter MCP-Tools nicht automatisch zu besseren Ergebnissen fuehrt. Wenige generische CRUD-Tools (ERPNext: 7 Tools, bis zu 68,9% Erfolg) schlagen teilweise grosse Tool-Kataloge. Wer MCP-Server baut, sollte lieber wenige ausdrueckliche Tools mit flexiblen Parametern bereitstellen als viele enge Endpunkte.
Terminal-First als Default-Architektur. Fuer Aufgaben mit vorhandener API ist ein Shell-basierter Agent oft die beste Wahl. Die direkte Interaktion mit APIs ueber curl, Python-Skripte oder CLI-Tools gibt dem Agent maximale Flexibilitaet bei minimalen Kosten. GUI-Agenten lohnen sich nur fuer Aufgaben, die zwingend Browser-Sessions erfordern (Drag-and-Drop, gerenderte Charts, Session-Cookies).
Skills statt Dokumentation. Persistent gespeicherte Loesungsmuster ("Skills") verbessern die Performance um 3,6-5,8 Prozentpunkte und senken Kosten um bis zu 43,7%. Der Grossteil des Skill-Inhalts sind dabei nicht die Prozeduren selbst, sondern die Pitfalls und plattformspezifischen Eigenheiten -- genau das Wissen, das in generischer Dokumentation fehlt.