Z.ai · GLM
GLM-5.2
glm-5.2
Erste WahlOpen-Weight Agentic-Coding-Flaggschiff (MIT)
Z.ais neues vollständig offenes Flaggschiff (MIT): MoE wie GLM-5/5.1, jetzt mit nutzbarem 1-Mio.-Token-Kontext und neuer „max“-Reasoning-Stufe. Im AA Intelligence Index 51 / Coding 51 das stärkste Open-Weight-Modell des Katalogs und nahe an den proprietären Spitzen – frei self-hostbar, auf lange agentische Coding-Horizonte ausgelegt.
- agentisches Coding
- Self-Hosting (MIT)
- lange Tool-Call-Horizonte
KontextfensterDie maximale Textmenge (in Tokens), die ein Modell pro Anfrage gleichzeitig „im Blick“ hat – Eingabe plus bisheriger Verlauf. Ist es voll, fällt Älteres aus dem Kontext.Mehr im Wissen → - 1 Mio.
TokenDie kleinste Verarbeitungseinheit eines Sprachmodells – ein Wortstück, kein ganzes Wort. Faustregel: rund 1.000 Tokens entsprechen grob 750 deutschen Wörtern. Preise und Kontextlängen werden in Tokens gerechnet.Mehr im Wissen → - Max. Ausgabe
- 131.072 K Token
- Preis (Input / Output)
- $1.4 / $4.4 je 1 Mio. Token
Preis-LeistungHier: AA-Intelligenz geteilt durch den (3:1 gewichteten) Token-Preis – Indexpunkte je Dollar pro Mio. Tokens. Höher = mehr Leistung fürs Geld. Entspricht der „Intelligence vs. Price“-Sicht von Artificial Analysis.Mehr im Wissen → - 23,7 Indexpkt. je $/Mio. Token
WissensstichtagDer Zeitpunkt, bis zu dem die Trainingsdaten eines Modells reichen („knowledge cutoff“). Über spätere Ereignisse weiß das Modell von sich aus nichts – es sei denn, sie werden ihm in der Anfrage mitgegeben.Mehr im Wissen → - nicht ausgewiesen
- Release
- 13. Juni 2026
Stärken
- Vollständig offene MIT-Lizenz – frei self-hostbar; ausdrücklich „ohne regionale Grenzen“ (Kontrast zur Fable-/Mythos-Sperre)
- Nutzbarer 1-Mio.-Token-Kontext (Sprung von 200 K bei GLM-5.1) plus neue „max“-Reasoning-Stufe
- AA Intelligence/Coding Index 51 – stärkstes Open-Weight-Modell des Katalogs, vor GLM-5.1 (40/43)
Schwächen
- Reines Text-Modell – Multimodalität nur im separaten GLM-5V
- Sehr großes Gewichtspaket (≈744 Mrd. Parameter) fürs Self-Hosting; laut AA für ein Open-Weight-Modell dieser Größe vergleichsweise teuer in der API
- Anbieter-Eigenbenchmarks (z. B. „nahe Opus 4.8“ auf Frontier-SWE) unabhängig nicht bestätigt
Typische Einsatzfälle
- agentisches Coding
- Self-Hosting (MIT)
- lange Reasoning-/Tool-Call-Aufgaben
Leistung im Vergleich
Unabhängige Indizes (Artificial Analysis, 0–100), zwei kontaminationsarme Einzel-Benchmarks (Terminal-Bench, agentische Shell-Aufgaben; τ²-bench, Tool-Use-Verlässlichkeit über viele Läufe) und Human-Präferenz-Elo (LMArena). Die dunkle Markierung zeigt den Bestwert im Katalog – so wird der Abstand zur Spitze sichtbar. Die
AA-IntelligenzZusammengesetzter Intelligenz-Index von Artificial Analysis (unabhängig, 0–100): bündelt mehrere Reasoning-, Wissens- und Mathe-Benchmarks zu einer Zahl. Je höher, desto stärker das allgemeine Reasoning.Mehr im Wissen → 51AA-CodingCoding-Teilindex von Artificial Analysis (unabhängig, 0–100): bündelt mehrere Programmier-Benchmarks zu einem Wert für die Code-Fähigkeit eines Modells.Mehr im Wissen → 51Terminal-BenchAusführungsbasierter Benchmark (0–100 %): das Modell löst echte Shell-/Terminal-Aufgaben in einer Sandbox, gewertet wird, ob das Ergebnis wirklich funktioniert. Dadurch kontaminationsärmer als reine Wissensquizze.Mehr im Wissen → 75τ²-benchBenchmark für die Verlässlichkeit beim Werkzeug-Einsatz: dieselbe Aufgabe wird viele Male wiederholt, gemessen wird, wie konstant das Modell die Tools korrekt bedient (0–100 %).Mehr im Wissen → 99
Benchmarks im Detail
Kennzahlen aus zitierten Messungen – unabhängige Quellen sind ausgewiesen, Anbieterangaben entsprechend markiert. Werte sind nicht über Skalen hinweg vergleichbar. Wie man Benchmark-Zahlen liest →
Artificial Analysis Intelligence Index
51
unabhängigArtificial Analysis (API), abgerufen 2026-06-17
Artificial Analysis Coding Index
51
unabhängigArtificial Analysis (API), abgerufen 2026-06-17
Terminal-Bench v2.1 (agentische Shell-Aufgaben)
75 %
unabhängigArtificial Analysis (API), abgerufen 2026-06-17
τ²-bench (Tool-Use-Verlässlichkeit)
99 %
unabhängigArtificial Analysis (API), abgerufen 2026-06-17
Einordnung
- Open-Weight-MoE (MIT) wie GLM-5/5.1 (≈744 Mrd. Gesamt- / 40 Mrd. aktive Parameter; der Hugging-Face-Parameter-Badge nennt 753 Mrd.). Kernneuerung „IndexShare“: Der Indexer der Sparse Attention wird über je vier Layer geteilt – laut Model-Card ~2,9× weniger FLOPs/Token bei 1-Mio.-Kontext; das zugehörige Paper „IndexCache“ (arXiv 2603.12201, Bai et al.) misst bis 1,82× Prefill- und 1,48× Decode-Speedup gegenüber Standard-DSA. Dazu eine MTP-Schicht für Speculative Decoding (+ bis 20 % akzeptierte Länge). Reines Text-Modell, nutzbarer 1-Mio.-Kontext, 128-K-Output, neue höchste Reasoning-Stufe „max“. Beleg · Primärquelle
- Delta zum Vorgänger GLM-5.1 (April 2026): Der nutzbare Kontext springt von 200 K auf 1 Mio. Token, der AA Intelligence/Coding Index von 40/43 auf 51/51, Terminal-Bench von 62 auf 75 %, dazu kommt die neue Reasoning-Stufe „max“ über „high“. Der Preis bleibt mit $1,40 / $4,40 je Mio. Token unverändert – derselbe Tarif bei deutlich höherer Leistung. Beleg · Sekundärquelle
- Konkurrenz-Ausblick: Auf der unabhängigen AA-Intelligence-Liste ist GLM-5.2 (max) mit 51 das #1-Open-Weight-Modell – vor DeepSeek-V4-Pro und MiniMax-M3 (je 44) und Kimi K2.6 (43) – und zieht sogar an Gemini 3.1 Pro (46) vorbei. Zur proprietären Spitze bleibt aber Abstand: GPT-5.5 (55/59), Opus 4.8 (56/57) und Fable 5 (60/62) liegen darüber, beim Coding-Index führt auch Gemini 3.1 Pro (55) noch. Z.ais Eigenvergleiche (FrontierSWE 74,4 % „~1 % hinter Opus 4.8“; SWE-bench Pro 62,1 > GPT-5.5 58,6) sind anbieterbefangen und unabhängig nicht bestätigt – die Kernbotschaft „bestes offenes Coding-Modell, nahe an, aber nicht auf der proprietären Spitze“ trägt die unabhängige Messung jedoch. Beleg · Sekundärquelle
- In der Praxis ist GLM-5.2 frei self-hostbar (MIT, „ohne regionale Grenzen“) und gegenüber den proprietären Flaggschiffen rund ein Sechstel so teuer ($1,40 / $4,40 vs. GPT-5.5 $5 / $30); laut AA läuft es mit ~112 Token/s zudem schnell. Innerhalb der Open-Weight-Klasse ist es laut AA für seine Größe allerdings vergleichsweise teuer (DeepSeek-V4-Pro $0,44 / $0,87, Kimi K2.6 $0,95 / $4). Z.ai veröffentlichte GLM-5.2 am 13.06.2026 unmittelbar nach der US-Sperre für Anthropics Fable/Mythos – Teil der „Airbus-Moment“-Debatte um offene chinesische Modelle als Antwort auf Exportkontrollen. Beleg · Sekundärquelle
Aus der System-Card
Verdichtete Befunde aus der offiziellen
Fähigkeiten
- Coding & Agentik – Laut Card 82,7 auf Terminal-Bench 2.1 (Z.ai-Doku: 81,0) und 62,1 auf SWE-bench Pro – deutlich über GLM-5.1 (62,0 / 58,4); auf FrontierSWE 74,4 %, laut Z.ai nur ~1 % hinter Claude Opus 4.8. Anbieter-selbstberichtet; die unabhängige AA-Messung liegt mit Terminal-Bench 75 % niedriger.
- Reasoning & Mathematik – Laut Card 99,2 auf AIME 2026; neue höchste Reasoning-Stufe „max“ (Parameter reasoning_effort) über der bisherigen Stufe „high“.
- Tool-Use – Laut Card 77,0 auf MCP-Atlas (Tool-Use); nativer Function-Calling-, Structured-Output- und MCP-Support, ausgelegt auf lange agentische Coding-Horizonte.
- Kontext – Stabil nutzbarer 1-Mio.-Token-Kontext (von 200 K bei GLM-5.1), 128-K-Output; reines Text-Modell (Multimodalität nur im separaten GLM-5V).
Verhalten & Sicherheit
- Architektur – MoE mit Sparse Attention; „IndexShare“ teilt den Indexer über je vier Sparse-Attention-Layer und senkt laut Card die FLOPs/Token bei 1-Mio.-Kontext um 2,9×. Das Paper „IndexCache“ (arXiv 2603.12201) misst bis 1,82× Prefill- und 1,48× Decode-Speedup gegenüber Standard-DSA.
- Speculative Decoding – Eine MTP-Schicht (Multi-Token-Prediction) für Speculative Decoding erhöht laut Card die akzeptierte Länge um bis zu 20 %.
- Parameter – Der Hugging-Face-Parameter-Badge nennt 753 Mrd.; die Familienarchitektur (GLM-5/5.1) ist ≈744 Mrd. total / 40 Mrd. aktiv – Divergenz dokumentiert.
- Lizenz – MIT-Open-Source – laut Z.ai „keine regionalen Grenzen, technischer Zugang ohne Grenzen“; Gewichte frei auf Hugging Face (zai-org/GLM-5.2).
- Safety – Z.ai dokumentiert GLM-5.2 über einen Technical Report (arXiv 2602.15763, „GLM-5: from Vibe Coding to Agentic Engineering“) und das IndexCache-Paper; eine dedizierte Safety-/Risiko-Card mit Refusal-/Misuse-Evals fehlt – anders als bei den westlichen Anbietern.
Alle Fähigkeitswerte sind anbieter-selbstberichtet (Z.ai-eigene Benchmarks, Cherry-Picking-Vorbehalt) – die unabhängigen Artificial-Analysis-Indizes (Intelligence/Coding je 51, Terminal-Bench 75 %) liegen unter den Card-Werten. Card-/Release-Stand 2026-06-13; AA-Variante „GLM-5.2 (max)“.
Z.ai – GLM-5.2 (Model-Card, Hugging Face)· Primärquelle, abgerufen 2026-06-17
Stimmen aus der Öffentlichkeit
Subjektive Einschätzungen Dritter – keine belegten Fakten, jeweils verlinkt.
- gemischtStuft GLM-5.2 (max) mit Intelligence-Index 51 als #1 unter den offenen Modellen ein (Klassenschnitt 24) und attestiert mit ~112 Token/s hohe Geschwindigkeit – merkt aber an, dass es „im Vergleich zu anderen Open-Weight-Modellen ähnlicher Größe besonders teuer“ ist.Artificial Analysis – GLM-5.2 (max) · Sekundärquelle, Juni 2026
- positivTitelt, das open-weights GLM-5.2 schlage GPT-5.5 auf mehreren Long-Horizon-Coding-Benchmarks zu einem Sechstel der Kosten – die zitierten Coding-Zahlen (SWE-bench Pro 62,1; FrontierSWE 74,4 %; MCP-Atlas 77,0) sind jedoch überwiegend Z.ai-Eigenbenchmarks.VentureBeat – Z.ai’s open-weights GLM-5.2 beats GPT-5.5 on long-horizon coding for 1/6th the cost · Sekundärquelle, Juni 2026
- gemischtFeiert GLM-5.2 als „the New AI Code King“ und hebt die MIT-Lizenz „ohne regionale Grenzen“ hervor, flaggt aber selbst die Anbieter-Benchmarks: ob GLM-5.2 in der Design Arena wirklich besser als Fable sei, „I don’t know if I buy that“.1littlecoder (YouTube) – „GLM 5.2 is the New AI Code King“ · Community, 2026-06-16
ℹ️ Z.ai-Ankündigung 13.06.2026 (MIT-Open-Weights „nächste Woche“, Gewichte auf Hugging Face zai-org/GLM-5.2). MoE wie GLM-5/5.1 (≈744 Mrd. total / 40 Mrd. aktiv; HF-Param-Badge nennt 753 Mrd. – Divergenz dokumentiert, primär 744). Neue Architektur „IndexShare“ (cross-layer index reuse, ~2,9× weniger FLOPs/Token bei 1 Mio. Kontext, Paper „Index Cache“). Eigenbenchmarks (Frontier-SWE 74,4 % vs. Opus 4.8 75 %) sind Anbieterangaben → abgewertet; die AA-Indizes (Tier B) sind unabhängig. AA-Variante: GLM-5.2 (max).