GLM-5.2 unabhängig nachgemessen: stärkstes offenes Modell – aber nicht auf Spitzenniveau
Vier Tage nach dem Release haben wir GLM-5.2 unabhängig eingeordnet: Im Artificial-Analysis-Index ist es mit 51 das beste Open-Weight-Modell – zieht sogar an Gemini 3.1 Pro vorbei, bleibt aber hinter GPT-5.5, Opus 4.8 und Fable 5. Die System-Card-Auswertung zeigt, dass Z.ais Vorzeige-Coding-Zahlen anbieter-selbstberichtet sind – und eine dedizierte Safety-Card fehlt.
Zum Release am 13. Juni stand vor allem Z.ais eigene Botschaft im Raum: GLM-5.2 schlage auf mehreren Long-Horizon-Coding-Benchmarks GPT-5.5, zu einem Sechstel der Kosten. Diese Zahlen (SWE-bench Pro 62,1; FrontierSWE 74,4 %; MCP-Atlas 77,0) stammen aus der Model-Card und sind anbieter-selbstberichtet – die Modell-Detailseite weist sie jetzt durchgängig als solche aus.
Unabhängig nachgemessen (Artificial Analysis, Tier B) ergibt sich ein nüchterneres Bild: GLM-5.2 (max) erreicht Intelligence- und Coding-Index von je 51 und ist damit das stärkste Open-Weight-Modell – vor DeepSeek-V4-Pro und MiniMax-M3 (je 44) sowie Kimi K2.6 (43) – und zieht sogar an Gemini 3.1 Pro (46) vorbei. Zur proprietären Spitze bleibt aber Abstand: GPT-5.5 (55/59), Opus 4.8 (56/57) und Fable 5 (60/62) liegen darüber, beim Coding-Index führt auch Gemini 3.1 Pro (55). „Bestes offenes Modell, nahe an, aber nicht auf der proprietären Spitze“ – das trägt die unabhängige Messung; „schlägt GPT-5.5“ trägt sie nicht.
Die System-Card-Auswertung füllt das Architektur-Bild: „IndexShare“ teilt den Sparse-Attention-Indexer über je vier Layer (laut Card ~2,9× weniger FLOPs/Token bei 1-Mio.-Kontext); das zugehörige Paper „IndexCache“ (arXiv 2603.12201) misst bis 1,82× Prefill- und 1,48× Decode-Speedup gegenüber Standard-DSA. Auffällig ist, was fehlt: Z.ai dokumentiert GLM-5.2 nur über einen Technical Report, eine dedizierte Safety-/Risiko-Card mit Refusal-/Misuse-Evals gibt es – anders als bei den westlichen Anbietern – nicht.
Unterm Strich: ein frei self-hostbares (MIT) Modell nahe an der Spitze und rund ein Sechstel so teuer wie die proprietären Flaggschiffe ($1,40 / $4,40 vs. GPT-5.5 $5 / $30) – innerhalb der Open-Weight-Klasse laut AA für seine Größe aber vergleichsweise teuer (DeepSeek-V4-Pro $0,44 / $0,87). Alle Details, Stimmen und die vollständige Konkurrenz-Einordnung stehen jetzt auf der Modellseite.