DepescheModelle17. Juni 2026

GLM-5.2 unabhängig nachgemessen: stärkstes offenes Modell – aber nicht auf Spitzenniveau

Vier Tage nach dem Release haben wir GLM-5.2 unabhängig eingeordnet: Im Artificial-Analysis-Index ist es mit 51 das beste Open-Weight-Modell – zieht sogar an Gemini 3.1 Pro vorbei, bleibt aber hinter GPT-5.5, Opus 4.8 und Fable 5. Die System-Card-Auswertung zeigt, dass Z.ais Vorzeige-Coding-Zahlen anbieter-selbstberichtet sind – und eine dedizierte Safety-Card fehlt.

Aussagen gegen die Quellen geprüft · 9. Juli 2026

Zum Release am 13. Juni stand vor allem Z.ais eigene Botschaft im Raum: GLM-5.2 schlage auf mehreren Long-Horizon-Coding-Benchmarks GPT-5.5, zu einem Sechstel der Kosten. Diese Zahlen ( 62,1; FrontierSWE 74,4 %; MCP-Atlas 76,8) stammen aus der und sind anbieter-selbstberichtet – die Modell-Detailseite weist sie jetzt durchgängig als solche aus.

Unabhängig nachgemessen (Artificial Analysis, Tier B) ergibt sich ein nüchterneres Bild: GLM-5.2 (max) erreicht einen Intelligence-Index von 51 und einen Coding-Index von 69 und ist damit das stärkste – auf der Intelligenz-Achse vor DeepSeek-V4-Pro und MiniMax-M3 (je 44) sowie Kimi K2.6 (43) – und zieht dort sogar an Gemini 3.1 Pro (46) vorbei. Zur Spitze bleibt aber Abstand: GPT-5.5 (55/75), Opus 4.8 (56/74) und Fable 5 (60/76) liegen darüber; beim Coding-Index zieht GLM-5.2 (69) mit Gemini 3.1 Pro (69) gleich, ohne die proprietäre Spitze zu erreichen. „Bestes offenes Modell, nahe an, aber nicht auf der proprietären Spitze“ – das trägt die unabhängige Messung; „schlägt GPT-5.5“ trägt sie nicht.

Die System-Card-Auswertung füllt das Architektur-Bild: „IndexShare“ teilt den -Indexer über je vier Layer (laut Card ~2,9× weniger FLOPs/Token bei 1-Mio.-Kontext); das zugehörige Paper „IndexCache“ (arXiv 2603.12201) misst bis 1,82× Prefill- und 1,48× Decode-Speedup gegenüber Standard-DSA. Auffällig ist, was fehlt: Z.ai dokumentiert GLM-5.2 nur über einen Technical Report, eine dedizierte Safety-/Risiko-Card mit Refusal-/Misuse-Evals gibt es – anders als bei den westlichen Anbietern – nicht.

Unterm Strich: ein frei self-hostbares (MIT) Modell nahe an der Spitze und rund ein Sechstel so teuer wie die proprietären Flaggschiffe ($1,40 / $4,40 vs. GPT-5.5 $5 / $30) – innerhalb der Open-Weight-Klasse laut AA für seine Größe aber vergleichsweise teuer (DeepSeek-V4-Pro $0,44 / $0,87). Alle Details, Stimmen und die vollständige Konkurrenz-Einordnung stehen jetzt auf der Modellseite.