From Language to Action -- Koennen LLMs als kognitive Architektur fuer Roboter dienen?
Shaji, Huppertz, Mitrevski und Houben (Hochschule Bonn-Rhein-Sieg) untersuchen in diesem bei der ICRA 2026 akzeptierten Paper eine grundlegende Frage: Kann ein LLM als zentrale kognitive Komponente einer Roboterarchitektur fungieren -- also nicht nur Aufgaben planen, sondern auch Wahrnehmung, Gedaechtnis und Handlungsausfuehrung koordinieren? Die Antwort ist differenziert: Es funktioniert erstaunlich gut bei strukturierten Aufgaben, scheitert aber an einem vertrauten Problem -- Halluzinationen, diesmal mit physischen Konsequenzen.
Kernaussagen
Die Forschenden entwickeln eine kognitive Architektur, in der ein agentisches LLM als zentrale Planungs- und Reasoning-Komponente arbeitet. Das System steuert einen mobilen Manipulator (quadratische omnidirektionale Basis, 7-DOF-Roboterarm) in einer simulierten Haushaltsumgebung mit Kueche und Wohnzimmer.
Vier Modelle wurden getestet -- GPT-4.1, Claude 4 Sonnet, Qwen3 Coder 480B und DeepSeek V3.1 -- auf zwei Haushaltsaufgaben:
| Modell | T1: Objekte einraeumen | T2: Objekte tauschen | Ausfuehrungen |
|---|---|---|---|
| GPT-4.1 | 100% | 44,4% | 84 |
| Claude 4 Sonnet | 100% | 100% | 18 |
| Qwen3 Coder 480B | 80% | 66,2% | 400 |
| DeepSeek V3.1 | 100% | 75,5% | 311 |
Claude 4 Sonnet erreicht als einziges Modell 100% auf beiden Aufgaben. Allerdings ist die Stichprobe mit 18 Ausfuehrungen deutlich kleiner als bei den anderen Modellen -- bedingt durch die hoeheren API-Kosten und 30-150 Sekunden Latenz pro Aufruf.
Das gravierendste Problem: Uebermaessige Selbstsicherheit. DeepSeek V3.1 glaubt in jeder einzelnen Ausfuehrung, erfolgreich gewesen zu sein -- auch wenn es tatsaechlich scheiterte. Alle Modelle ausser Claude ueberschaetzen ihren Erfolg signifikant. Ein Roboter, der faelschlicherweise meldet, eine Aufgabe abgeschlossen zu haben, ist in der Praxis gefaehrlicher als einer, der scheitert und dies korrekt meldet.
Methodik
Die kognitive Architektur besteht aus drei Subsystemen:
-
Arbeitsgedaechtnis: Implementiert ueber den LLM-Kontext plus einen Scratchpad-Mechanismus fuer dynamisches Reasoning waehrend der Aufgabenausfuehrung.
-
Episodisches Gedaechtnis: ChromaDB als Vektordatenbank speichert vergangene Erfahrungen, die per semantischer Suche abgerufen werden koennen. Die Idee: Der Agent lernt aus frueheren Versuchen.
-
Werkzeuge: Sechs High-Level-Tools -- Look-Around (Wahrnehmung), Move-To (Navigation via A*), Grab/Place (Manipulation), Scratchpad (Reasoning), Search-Memory (Erfahrungsabruf), End-Task (Abschluss).
Die Simulation laeuft in PyBullet. Der Vergleich zwischen Ground-Truth-Erfolg (aus der Simulationsengine) und vom Modell berichtetem Erfolg wird ueber Konfusionsmatrizen ausgewertet.
Ein ernuechterndes Ergebnis zum episodischen Gedaechtnis: Der Effekt ist "inconclusive". Zwar reduzieren sich Tool-Aufrufe um 10-15%, aber falsch beschriftete gescheiterte Ausfuehrungen kontaminieren das Gedaechtnis. Bei Qwen3 verschlechtert sich die Performance auf T2 sogar durch das Gedaechtnis -- weil es fehlerhafte Strategien aus der Vergangenheit uebernimmt.
Relevanz fuer die Praxis
Halluzinationen sind in der Robotik gefaehrlicher als bei Textgenerierung. Wenn ein Chatbot halluziniert, kann der Nutzer den Output pruefen. Wenn ein Roboter halluziniert, er habe eine Aufgabe erledigt, und sich der naechsten zuwendet, kaskadieren die Fehler in der physischen Welt. Die Studie zeigt, dass aktuelle LLMs dieses Problem noch nicht geloest haben -- selbst die besten Modelle brauchen externe Verifikation.
Episodisches Gedaechtnis ist noch nicht reif. Die intuitive Idee, einen Agenten aus seinen Fehlern lernen zu lassen, scheitert in der Praxis an der Zuverlaessigkeit der Selbstbewertung. Wenn der Agent nicht zuverlaessig erkennt, ob er erfolgreich war, vergiftet er sein eigenes Gedaechtnis. Das ist ein generelles Problem fuer alle LLM-basierten Agenten mit persistenter Erfahrung.
Latenz und Kosten bleiben eine Huerde. Claude 4 Sonnet zeigt die besten Ergebnisse, ist aber mit 30-150 Sekunden pro Aufruf fuer Echtzeit-Robotik unpraktikabel. Die lokal laufenden Modelle (Qwen3, DeepSeek) sind schneller, aber weniger zuverlaessig. Fuer produktive Embodied-AI-Systeme braucht es entweder kleinere, spezialisierte Modelle oder deutlich schnellere Inferenz der grossen Modelle.