Z.ai · GLM

GLM-5.2

glm-5.2

Text

Erste WahlOpen-Weight Agentic-Coding-Flaggschiff (MIT)

Z.ais neues vollständig offenes Flaggschiff (MIT): wie GLM-5/5.1, jetzt mit nutzbarem 1-Mio.-Token-Kontext und neuer „max“-Reasoning-Stufe. Im AA Intelligence Index 51 / Coding 69 das stärkste -Modell des Katalogs und nahe an den proprietären Spitzen – frei self-hostbar, auf lange agentische Coding-Horizonte ausgelegt.

agentisches Coding
Self-Hosting (MIT)
lange Tool-Call-Horizonte
Webdesign-Prototyping (Design-Arena-Spitze)
Schwachstellen-Suche (Semgrep-IDOR vor Claude Code)

: 1 Mio.
Max. Ausgabe: 131.072 K Token
Preis (Input / Output): $1.4 / $4.4 je 1 Mio. Token
: 23,7 Indexpkt. je $/Mio. Token
: nicht ausgewiesen
Release: 13. Juni 2026

Stärken

Vollständig offene MIT-Lizenz – frei self-hostbar; ausdrücklich „ohne regionale Grenzen“ (Kontrast zur Fable-/Mythos-Sperre)
Nutzbarer 1-Mio.-Token-Kontext (Sprung von 200 K bei GLM-5.1) plus neue „max“-Reasoning-Stufe
AA Intelligence/Coding Index 51 – stärkstes Open-Weight-Modell des Katalogs, vor GLM-5.1 (40/43)

Schwächen

Reines Text-Modell – Multimodalität nur im separaten GLM-5V
Sehr großes Gewichtspaket (≈744 Mrd. ) fürs ; laut AA für ein -Modell dieser Größe vergleichsweise teuer in der API
Anbieter-Eigenbenchmarks (z. B. „nahe Opus 4.8“ auf Frontier-SWE) unabhängig nicht bestätigt

Typische Einsatzfälle

agentisches Coding
Self-Hosting (MIT)
lange -/Tool-Call-Aufgaben

Leistung im Vergleich

Unabhängige Indizes (Artificial Analysis, 0–100), zwei kontaminationsarme Einzel-Benchmarks (Terminal-Bench, agentische Shell-Aufgaben; τ²-bench, Tool-Use-Verlässlichkeit über viele Läufe) und Human-Präferenz-Elo (LMArena). Die dunkle Markierung zeigt den Bestwert im Katalog – so wird der Abstand zur Spitze sichtbar. Die oben ist daraus abgeleitet: AA-Intelligenz je AA-Blended-Preis (3:1) – entspricht der „Intelligence vs. Price“-Sicht von Artificial Analysis. AAs token-basiertes „Cost to Run Index“ ist nicht öffentlich abrufbar.

Benchmarks im Detail

Kennzahlen aus zitierten Messungen – unabhängige Quellen sind ausgewiesen, Anbieterangaben entsprechend markiert. Werte sind nicht über Skalen hinweg vergleichbar. Wie man Benchmark-Zahlen liest →

Artificial Analysis Intelligence Index
51
unabhängigArtificial Analysis (API), abgerufen 2026-06-17
Artificial Analysis Coding Index
69
unabhängigArtificial Analysis (API), abgerufen 2026-07-09
Terminal-Bench v2.1 (agentische Shell-Aufgaben)
78 %
unabhängigArtificial Analysis (API), abgerufen 2026-07-09
τ²-bench (Tool-Use-Verlässlichkeit)
99 %
unabhängigArtificial Analysis (API), abgerufen 2026-06-17

Einordnung

- (MIT) wie GLM-5/5.1 (≈744 Mrd. Gesamt- / 40 Mrd. aktive ; die auf angezeigte Parameter-Zahl nennt 753 Mrd.). Kernneuerung „IndexShare“: Der Indexer der wird über je vier Layer geteilt – laut Model-Card ~2,9× weniger FLOPs/Token bei 1-Mio.-Kontext; das zugehörige Paper „IndexCache“ (arXiv 2603.12201, Bai et al.) misst bis 1,82× Prefill- und 1,48× Decode-Speedup gegenüber Standard-DSA. Dazu eine -Schicht für (+ bis 20 % akzeptierte Länge). Reines Text-Modell, nutzbarer 1-Mio.-Kontext, 128-K-Output, neue höchste Reasoning-Stufe „max“.Beleg · Primärquelle
Delta zum Vorgänger GLM-5.1 (April 2026): Der nutzbare Kontext springt von 200 K auf 1 Mio. Token, der AA Intelligence/Coding Index von 40/56 auf 51/69, Terminal-Bench von 62 auf 78 %, dazu kommt die neue Reasoning-Stufe „max“ über „high“. Der Preis bleibt mit $1,40 / $4,40 je Mio. Token unverändert – derselbe Tarif bei deutlich höherer Leistung.Beleg · Sekundärquelle
Konkurrenz-Ausblick: Auf der unabhängigen AA-Intelligence-Liste ist GLM-5.2 (max) mit 51 das #1-Open-Weight-Modell – vor DeepSeek-V4-Pro und MiniMax-M3 (je 44) und Kimi K2.6 (43) – und zieht sogar an Gemini 3.1 Pro (46) vorbei. Zur proprietären Spitze bleibt aber Abstand: GPT-5.5 (55/75), Opus 4.8 (56/74) und Fable 5 (60/76) liegen darüber, und beim Coding-Index liegt GLM-5.2 (69) gleichauf mit Gemini 3.1 Pro (69), knapp hinter Gemini 3.5 Flash (70). Z.ais Eigenvergleiche ( 74,4 % „~1 % hinter Opus 4.8“; 62,1 > GPT-5.5 58,6) sind anbieterbefangen und unabhängig nicht bestätigt – die Kernbotschaft „bestes offenes Coding-Modell, nahe an, aber nicht auf der proprietären Spitze“ trägt die unabhängige Messung jedoch.Beleg · Sekundärquelle
In der Praxis ist GLM-5.2 frei self-hostbar (MIT, „ohne regionale Grenzen“) und gegenüber den proprietären Flaggschiffen rund ein Sechstel so teuer ($1,40 / $4,40 vs. GPT-5.5 $5 / $30); laut AA läuft es mit ~112 Token/s zudem schnell. Innerhalb der Open-Weight-Klasse ist es laut AA für seine Größe allerdings vergleichsweise teuer (DeepSeek-V4-Pro $0,44 / $0,87, Kimi K2.6 $0,95 / $4). Z.ai veröffentlichte GLM-5.2 am 13.06.2026 unmittelbar nach der US-Sperre für Anthropics Fable/Mythos – Teil der „Airbus-Moment“-Debatte um offene chinesische Modelle als Antwort auf Exportkontrollen.Beleg · Sekundärquelle

Aus der System-Card

Verdichtete Befunde aus der offiziellen des Anbieters (Primärquelle, ). Fähigkeitswerte sind Anbieterangaben – nicht unabhängig nachgemessen. Card-Stand 2026-06-13.

Fähigkeiten

Coding & Agentik – Laut Card 82,7 auf 2.1 (Z.ai-Doku: 81,0) und 62,1 auf SWE-bench Pro – deutlich über GLM-5.1 (62,0 / 58,4); auf FrontierSWE 74,4 %, laut Z.ai nur ~1 % hinter Claude Opus 4.8. Anbieter-selbstberichtet; die unabhängige AA-Messung liegt mit Terminal-Bench 75 % niedriger.
Reasoning & Mathematik – Laut Card 99,2 auf AIME 2026; neue höchste Reasoning-Stufe „max“ (Parameter reasoning_effort) über der bisherigen Stufe „high“.
Tool-Use – Laut Card 77,0 auf MCP-Atlas (Tool-Use); nativer -, - und -Support, ausgelegt auf lange agentische Coding-Horizonte.
Kontext – Stabil nutzbarer 1-Mio.--Kontext (von 200 K bei GLM-5.1), 128-K-Output; reines Text-Modell (Multimodalität nur im separaten GLM-5V).

Verhalten & Sicherheit

Architektur – mit ; „IndexShare“ teilt den Indexer über je vier Sparse-Attention-Layer und senkt laut Card die FLOPs/Token bei 1-Mio.-Kontext um 2,9×. Das Paper „IndexCache“ (arXiv 2603.12201) misst bis 1,82× Prefill- und 1,48× Decode-Speedup gegenüber Standard-DSA.
Speculative Decoding – Eine (Multi-Token-Prediction) für erhöht laut Card die akzeptierte Länge um bis zu 20 %.
Parameter – Die auf angezeigte Parameter-Zahl nennt 753 Mrd.; die Familienarchitektur (GLM-5/5.1) ist ≈744 Mrd. total / 40 Mrd. aktiv – Divergenz dokumentiert.
Lizenz – MIT-Open-Source – laut Z.ai „keine regionalen Grenzen, technischer Zugang ohne Grenzen“; Gewichte frei auf (zai-org/GLM-5.2).
Safety – Z.ai dokumentiert GLM-5.2 über einen Technical Report (arXiv 2602.15763, „GLM-5: from Vibe Coding to Agentic Engineering“) und das IndexCache-Paper; eine dedizierte Safety-/Risiko-Card mit Refusal-/Misuse-Evals fehlt – anders als bei den westlichen Anbietern.

Alle Fähigkeitswerte sind anbieter-selbstberichtet (Z.ai-eigene Benchmarks, Cherry-Picking-Vorbehalt) – die unabhängigen Artificial-Analysis-Indizes (Intelligence/Coding je 51, Terminal-Bench 75 %) liegen unter den Card-Werten. Card-/Release-Stand 2026-06-13; AA-Variante „GLM-5.2 (max)“.

Z.ai – GLM-5.2 (Model-Card, Hugging Face)· Primärquelle, abgerufen 2026-06-17

Stimmen aus der Öffentlichkeit

Subjektive Einschätzungen Dritter – keine belegten Fakten, jeweils verlinkt.

kritischStaatliche Cyber-Bewertung: In einer gemeinsamen vorläufigen Evaluierung von UK AISI und dem US-CAISI (beim NIST) erreicht GLM-5.2 auf ExploitBench (41 Aufgaben zu Chrome-V8-Schwachstellen nach 2023) 24 Prozent – hinter Kimi K3 (32 Prozent) und deutlich hinter den cyber-stärksten US-Modellen, die bei der Teilmetrik „Arbitrary Code Execution“ im Schnitt 20 von 41 Fällen durchziehen. Im simulierten Netzwerk „The Last Ones“ kommt GLM-5.2 bis Schritt 11 von 32 (Kimi K3: 17, US-Frontier-Modelle: 28,5). Wichtige Relativierung zur Semgrep-IDOR-Lesart weiter unten: Bei der Ausnutzung von Speicherfehlern bis zur Codeausführung liegt GLM-5.2 klar hinter der US-Spitze; die US-Modelle wurden dafür allerdings mit abgeschalteten System-Schutzmaßnahmen gemessen.UK AI Security Institute / CAISI – Preliminary assessment of Kimi K3’s cyber capabilities · Primärquelle, 2026-07-23
positivDatabricks testete Coding-Agenten auf echten Pull-Requests seiner Multi-Millionen-Zeilen-Codebasis (Python, Go, TypeScript, Scala) – bewusst ohne LLM-Judge und mit versiegelter Git-Historie. GLM-5.2 lag in der obersten Qualitätsstufe statistisch gleichauf mit Opus 4.8, kostete pro Aufgabe aber nur 1,28 statt 1,94 US-Dollar (Opus: 87 % Erfolgsquote; Sonnet 2,09 $ bei 81 %). Databricks will GLM-5.2 als tägliches Coding-Arbeitsmodell einsetzen. Seltene unabhängige Prüfung an einer realen Produktions-Codebasis statt an einem öffentlichen Benchmark.Databricks – Benchmarking Coding Agents on Databricks’ Multi-Million-Line Codebase · Primärquelle, 2026-07-09
gemischtStuft GLM-5.2 (max) mit Intelligence-Index 51 als #1 unter den offenen Modellen ein (Klassenschnitt 24) und attestiert mit ~112 Token/s hohe Geschwindigkeit – merkt aber an, dass es „im Vergleich zu anderen Open-Weight-Modellen ähnlicher Größe besonders teuer“ ist.Artificial Analysis – GLM-5.2 (max) · Sekundärquelle, Juni 2026
positivBerichtet, einige Sicherheitsforscher sähen das offene GLM-5.2 bei bestimmten Bug-Finding- und Cybersicherheits-Aufgaben auf Augenhöhe mit Anthropics zugangsbeschränktem Mythos: In Semgreps unabhängigem IDOR-Schwachstellen-Test erreiche GLM-5.2 39 % F1 und liege damit vor Claude Code (32–37 %); auf breiten Allzweck-Benchmarks bleibe es aber hinter den US-Spitzenmodellen. Brisanz: Eine vergleichbare Cyber-Fähigkeit steckt hier in einem frei herunterladbaren, in den Leitplanken entfernbaren MIT-Modell.The Verge – China’s Z.ai claims it can match Mythos on cybersecurity · Sekundärquelle, 2026-06-28
positivTitelt, das open-weights GLM-5.2 schlage GPT-5.5 auf mehreren Long-Horizon-Coding-Benchmarks zu einem Sechstel der Kosten – die zitierten Coding-Zahlen (SWE-bench Pro 62,1; FrontierSWE 74,4 %; MCP-Atlas 76,8) sind jedoch überwiegend Z.ai-Eigenbenchmarks.VentureBeat – Z.ai’s open-weights GLM-5.2 beats GPT-5.5 on long-horizon coding for 1/6th the cost · Sekundärquelle, Juni 2026
gemischtFeiert GLM-5.2 als „the New AI Code King“ und hebt die MIT-Lizenz „ohne regionale Grenzen“ hervor, flaggt aber selbst die Anbieter-Benchmarks: ob GLM-5.2 in der Design Arena wirklich besser als Fable sei, „I don’t know if I buy that“.1littlecoder (YouTube) – „GLM 5.2 is the New AI Code King“ · Community, 2026-06-16
positivBerichtet, GLM-5.2 habe in der crowdgestützten Design Arena (Human-Preference-Elo) die Webdesign-Wertung mit einer Elo-Wertung von rund 1.360 übernommen und Claude Fable 5 von Platz 1 verdrängt – bei einem Fünftel der API-Kosten. Gilt für gestalterische Präferenz auf einstufige Prompts, nicht für Code-Korrektheit oder agentische Projektarbeit; auf dem AA-Gesamtindex bleibt GLM-5.2 (51/51) hinter Fable 5 (60/62).ComputerBase – GLM-5.2 verdrängt Claude Fable 5 bei Webdesign von der Spitze (Design Arena) · Sekundärquelle, 2026-06-20
positivNennt GLM-5.2 das erste Open-Weight-Modell, das sich „in Coding-Harnesses als genereller Agent richtig anfühlt“, und stuft den Release als „step change“ vergleichbar mit DeepSeeks R1 ein – die lange beobachtete Schwelle, ab der offene Modelle im agentischen Coding glaubwürdige Alternativen zur proprietären Spitze bieten. Auf Benchmark-Zahlen verzichtet er bewusst („benchmarks are half dead these days“).Interconnects (Nathan Lambert) – „GLM-5.2 is the step change for open agents“ · Sekundärquelle, 2026-06-22
gemischtBezeichnet GLM-5.2 als „bestes offenes Modell“, ordnet es aber „4 bis 7 Monate hinter der Frontier“ ein: Auf Artificial Analysis (v4.1) liegt es mit 51 hinter Fable (60), Opus 4.8 (56), GPT-5.5 (55) und Opus 4.7 (54), bei Vals.ai auf Rang 5 (klar bestes offenes Modell). Vorbehalte: Distillation aus Claude schwächt die Generalisierung, keine native Vision, und das Modell ist „token-hungry“.Don’t Worry About the Vase (Zvi Mowshowitz) – „GLM-5.2 Is The New Best Open Model“ · Sekundärquelle, 2026-06-22
kritischPersona-Abhängigkeit gemessen: Zwei MATS-Stipendiaten stellten fest, dass GLM-5.2 sich zwar in allen zehn Durchläufen korrekt als GLM identifiziert, sein Verhalten aber stark an der vorgegebenen Identität hängt. Unter eigener Identität beantwortet es 17 Prozent der politisch sensiblen Fragen zur Volksrepublik unzensiert, als „Claude“ 85 Prozent; die Rate strategischer Lügen fällt von 63–69 auf 22 Prozent. Zum Vergleich: Kimi K3 bleibt unter allen Bedingungen bei 0–1 Prozent, Qwen bei 0 Prozent unzensierten Antworten. Wichtige Einschränkung der Autoren: Das ist kein Nachweis von Distillation, und die Stichproben sind klein (5–6 Fragen je Messstrecke, vollständiges Verhaltensprofil nur auf GLM). Praktische Folge: Leitplanken, die an einer Persona hängen, messen nicht das Modell.Benji Berczi, Kyuhee Kim – Does distilling Claude carry the persona with it? (LessWrong, nicht begutachtet) · Primärquelle, 2026-07-24
gemischtDämpft den Open-Source-Hype im Praxis-Head-to-head gegen Opus 4.8 und GPT-5.5 (Spiele-/Webdesign-Aufgaben): GLM-5.2 sei zwar das stärkste offene Modell, lande aber durchgängig „near the bottom“ und verbrauche ~10× mehr Token (über 1 Mio. vs. ~100 K je Aufgabe). Entgegen der „unendlich billiger“-Erzählung lägen Opus/GPT bei mittlerem Aufwand sogar im Score höher und im Preis niedriger; für Nutzer auf den subventionierten Max-Plänen sehe er „keinen Grund für GLM-5.2“. Eigene n=1-Tests plus zitierter Drittanbieter-Benchmark – anbieter-unabhängig, aber Tier C.Chase AI (YouTube) – „I Tested GLM 5.2 vs Opus 4.8 vs GPT 5.5“ · Community, 2026-06-22

ℹ️ Z.ai-Ankündigung 13.06.2026 (MIT-Open-Weights „nächste Woche“, Gewichte auf Hugging Face zai-org/GLM-5.2). wie GLM-5/5.1 (≈744 Mrd. total / 40 Mrd. aktiv; die auf angezeigte Parameter-Zahl nennt 753 Mrd. – Divergenz dokumentiert, primär 744). Neue Architektur „IndexShare“ (cross-layer index reuse, ~2,9× weniger FLOPs/Token bei 1 Mio. Kontext, Paper „Index Cache“). Eigenbenchmarks (Frontier-SWE 74,4 % vs. Opus 4.8 75 %) sind Anbieterangaben → abgewertet; die AA-Indizes (Tier B) sind unabhängig. AA-Variante: GLM-5.2 (max).