Zhipu GLM-5V-Turbo -- Design-Mockups direkt in Frontend-Code
Das chinesische AI-Startup Zhipu AI hat mit GLM-5V-Turbo sein erstes multimodales Coding-Basismodell veroeffentlicht. Das Modell verarbeitet Bilder, Video und Text und ist speziell fuer den Einsatz in Agent-Workflows optimiert. Die zentrale Faehigkeit: Design-Mockups werden direkt in ausfuehrbaren Frontend-Code umgewandelt.
Design-to-Code
GLM-5V-Turbo rekonstruiert aus Wireframes und hochaufloesenden Designs die Struktur und Funktionalitaet einer Oberflaeche -- mit dem Ziel pixelgenauer visueller Konsistenz. Darueber hinaus kann das Modell autonome GUI-Erkundung durchfuehren: Es navigiert Websites, kartografiert Seitenuebergaenge und sammelt visuellen Inhalt. Rendering-Fehler werden automatisch identifiziert und Fixes generiert.
Architektur und technische Details
- Kontextfenster: 200.000 Token Input, maximal 128.000 Token Output
- Vision Encoder: Proprietaerer Encoder namens CogViT
- Inferenz: Multi-Token Prediction waehrend der Inferenz
- Training: Reinforcement Learning ueber 30+ Aufgabentypen, agentic Meta-Skills bereits im Pre-Training integriert
Das Modell vereint Wahrnehmung, Planung und Ausfuehrung in einer einzigen Pipeline. Es funktioniert mit Agent-Frameworks wie Claude Code und OpenClaw.
Benchmarks
In multimodalen Coding-Benchmarks fuehrt GLM-5V-Turbo bei Design2Code, ImageMining, BrowseComp-VL und MMSearch. Bei GUI-Agent-Benchmarks zeigt es starke Ergebnisse in AndroidWorld und WebVoyager. Im reinen Text-Coding gibt es keine Performance-Einbussen gegenueber dem textbasierten GLM-5-Turbo -- das Modell konkurriert dort mit Claude Opus 4.6.
Claude Opus 4.6 fuehrt allerdings weiterhin in einigen Kategorien wie Flame-VLM-Code und OSWorld. Unabhaengige Evaluierungen stehen noch aus.
Verfuegbarkeit und Preise
GLM-5V-Turbo ist ausschliesslich als API ueber die Zhipu-AI-Plattform verfuegbar. Die Preise liegen bei 1,20 Dollar pro Million Input-Token und 4 Dollar pro Million Output-Token -- identisch mit GLM-5-Turbo und nur leicht ueber dem Basis-GLM-5. Open-Source-Gewichte wurden bisher nicht angekuendigt. Auf ClawHub stehen offizielle Skills fuer das Modell bereit.
Einordnung
Zhipu AI baut mit der GLM-Familie ein breites Modell-Portfolio auf. Das im Februar 2026 veroeffentlichte GLM-5 (744B Parameter, MIT-Lizenz) laeuft auf chinesischen Huawei-Chips. GLM-5V-Turbo ergaenzt die Familie um multimodale Coding-Faehigkeiten und positioniert sich im Wettbewerb mit Alibabas Qwen3.5-Omni und Moonshots Kimi K2.5. Der Design-to-Code-Ansatz ist ein konkreter Anwendungsfall, der ueber generische Bildverarbeitung hinausgeht und direkt in Entwickler-Workflows integrierbar ist.
Quellen
- The Decoder: Zhipu AIs GLM-5V-Turbo turns design mockups directly into executable front-end code
- Zhipu AI Dokumentation: GLM-5V-Turbo
- ClawHub