GLM-5.1 -- Z.AIs 754B-Modell laeuft autonom acht Stunden

8. April 2026

Z.AI (vormals Zhipu) hat GLM-5.1 veroeffentlicht -- ein Open-Weight-Modell mit 754 Milliarden Parametern, das speziell fuer agentische Aufgaben ausgelegt ist. Die Veroeffentlichung ist bemerkenswert, weil sie mehrere Grenzen gleichzeitig verschiebt: Modellgroesse, Benchmark-Leistung und autonome Ausfuehrungsdauer.

Benchmarks

GLM-5.1 erreicht den aktuellen Stand der Technik (SOTA) auf SWE-Bench Pro, dem Benchmark fuer realistische Software-Engineering-Aufgaben. SWE-Bench Pro gilt als deutlich anspruchsvoller als das Original-SWE-Bench, da es reale, ungesehene Issues aus grossen Open-Source-Projekten verwendet.

Technische Faehigkeiten

Das Modell ist fuer sogenannte Long-Horizon-Engineering-Tasks konzipiert -- Aufgaben, die viele aufeinanderfolgende Schritte erfordern, ohne zwischendurch neue Anweisungen zu erhalten:

Autonome Ausfuehrung: Bis zu acht Stunden ohne Leistungsabfall
CUDA-Kernel-Optimierung: Das Modell kann auf dieser Ebene eigenstaendig arbeiten -- ein Bereich, der bisher menschliche Expertise voraussetzte
Agentenarchitektur: Ausgelegt auf mehrschrittige Planung, Werkzeugnutzung und Fehlerkorrektur im Verlauf langer Sitzungen

Bedeutung als Open-Weight-Modell

Vergleichbare agentische Faehigkeiten waren bisher proprietary -- Claude Opus, GPT-4 und aehnliche Modelle. GLM-5.1 stellt das erstmals als Open-Weight-Modell bereit. Das hat praktische Konsequenzen:

Selbst-gehosteter Betrieb moeglich, ohne API-Abhaengigkeit
Finetuning und Anpassung an spezifische Codebasen
Kein Datenaustausch mit externen Diensten erforderlich

Fuer Unternehmen mit hohen Compliance-Anforderungen oder spezialisierten Engineering-Domains ist das ein relevanter Unterschied gegenueber proprietary Alternativen.

Einordnung

GLM-5.1 konkurriert direkt mit Claude und GPT-4-Klasse-Modellen im Bereich Coding-Agenten -- als Open-Weight-Option. Die 8-Stunden-Laufzeit ohne Degradation ist das technisch ungewoehnlichste Merkmal: Die meisten Agenten-Setups akkumulieren Fehler ueber lange Sitzungen. Ob das in realen Workflows reproduzierbar ist, bleibt abzuwarten.

Quellen

Nach oben