← Alle Modelle

Z.ai · GLM

GLM-5.2

glm-5.2

open-weightModell, dessen trainierte Gewichte öffentlich herunterladbar sind, sodass man es selbst (lokal oder auf eigener Hardware) betreiben kann. Nicht zwingend vollständig quelloffen – die Lizenz bestimmt die erlaubte Nutzung.Mehr im Wissen →Text

Erste WahlOpen-Weight Agentic-Coding-Flaggschiff (MIT)

Z.ais neues vollständig offenes Flaggschiff (MIT): MoE wie GLM-5/5.1, jetzt mit nutzbarem 1-Mio.-Token-Kontext und neuer „max“-Reasoning-Stufe. Im AA Intelligence Index 51 / Coding 51 das stärkste Open-Weight-Modell des Katalogs und nahe an den proprietären Spitzen – frei self-hostbar, auf lange agentische Coding-Horizonte ausgelegt.

  • agentisches Coding
  • Self-Hosting (MIT)
  • lange Tool-Call-Horizonte
KontextfensterDie maximale Textmenge (in Tokens), die ein Modell pro Anfrage gleichzeitig „im Blick“ hat – Eingabe plus bisheriger Verlauf. Ist es voll, fällt Älteres aus dem Kontext.Mehr im Wissen →
1 Mio.TokenDie kleinste Verarbeitungseinheit eines Sprachmodells – ein Wortstück, kein ganzes Wort. Faustregel: rund 1.000 Tokens entsprechen grob 750 deutschen Wörtern. Preise und Kontextlängen werden in Tokens gerechnet.Mehr im Wissen →
Max. Ausgabe
131.072 K Token
Preis (Input / Output)
$1.4 / $4.4 je 1 Mio. Token
Preis-LeistungHier: AA-Intelligenz geteilt durch den (3:1 gewichteten) Token-Preis – Indexpunkte je Dollar pro Mio. Tokens. Höher = mehr Leistung fürs Geld. Entspricht der „Intelligence vs. Price“-Sicht von Artificial Analysis.Mehr im Wissen →
23,7 Indexpkt. je $/Mio. Token
WissensstichtagDer Zeitpunkt, bis zu dem die Trainingsdaten eines Modells reichen („knowledge cutoff“). Über spätere Ereignisse weiß das Modell von sich aus nichts – es sei denn, sie werden ihm in der Anfrage mitgegeben.Mehr im Wissen →
nicht ausgewiesen
Release
13. Juni 2026

Stärken

  • Vollständig offene MIT-Lizenz – frei self-hostbar; ausdrücklich „ohne regionale Grenzen“ (Kontrast zur Fable-/Mythos-Sperre)
  • Nutzbarer 1-Mio.-Token-Kontext (Sprung von 200 K bei GLM-5.1) plus neue „max“-Reasoning-Stufe
  • AA Intelligence/Coding Index 51 – stärkstes Open-Weight-Modell des Katalogs, vor GLM-5.1 (40/43)

Schwächen

  • Reines Text-Modell – Multimodalität nur im separaten GLM-5V
  • Sehr großes Gewichtspaket (≈744 Mrd. Parameter) fürs Self-Hosting; laut AA für ein Open-Weight-Modell dieser Größe vergleichsweise teuer in der API
  • Anbieter-Eigenbenchmarks (z. B. „nahe Opus 4.8“ auf Frontier-SWE) unabhängig nicht bestätigt

Typische Einsatzfälle

  • agentisches Coding
  • Self-Hosting (MIT)
  • lange Reasoning-/Tool-Call-Aufgaben

Leistung im Vergleich

Unabhängige Indizes (Artificial Analysis, 0–100), zwei kontaminationsarme Einzel-Benchmarks (Terminal-Bench, agentische Shell-Aufgaben; τ²-bench, Tool-Use-Verlässlichkeit über viele Läufe) und Human-Präferenz-Elo (LMArena). Die dunkle Markierung zeigt den Bestwert im Katalog – so wird der Abstand zur Spitze sichtbar. Die Preis-LeistungHier: AA-Intelligenz geteilt durch den (3:1 gewichteten) Token-Preis – Indexpunkte je Dollar pro Mio. Tokens. Höher = mehr Leistung fürs Geld. Entspricht der „Intelligence vs. Price“-Sicht von Artificial Analysis.Mehr im Wissen → oben ist daraus abgeleitet: AA-Intelligenz je AA-Blended-Preis (3:1) – entspricht der „Intelligence vs. Price“-Sicht von Artificial Analysis. AAs token-basiertes „Cost to Run Index“ ist nicht öffentlich abrufbar.

  • AA-IntelligenzZusammengesetzter Intelligenz-Index von Artificial Analysis (unabhängig, 0–100): bündelt mehrere Reasoning-, Wissens- und Mathe-Benchmarks zu einer Zahl. Je höher, desto stärker das allgemeine Reasoning.Mehr im Wissen →51
  • AA-CodingCoding-Teilindex von Artificial Analysis (unabhängig, 0–100): bündelt mehrere Programmier-Benchmarks zu einem Wert für die Code-Fähigkeit eines Modells.Mehr im Wissen →51
  • Terminal-BenchAusführungsbasierter Benchmark (0–100 %): das Modell löst echte Shell-/Terminal-Aufgaben in einer Sandbox, gewertet wird, ob das Ergebnis wirklich funktioniert. Dadurch kontaminationsärmer als reine Wissensquizze.Mehr im Wissen →75
  • τ²-benchBenchmark für die Verlässlichkeit beim Werkzeug-Einsatz: dieselbe Aufgabe wird viele Male wiederholt, gemessen wird, wie konstant das Modell die Tools korrekt bedient (0–100 %).Mehr im Wissen →99

Benchmarks im Detail

Kennzahlen aus zitierten Messungen – unabhängige Quellen sind ausgewiesen, Anbieterangaben entsprechend markiert. Werte sind nicht über Skalen hinweg vergleichbar. Wie man Benchmark-Zahlen liest →

  • Artificial Analysis Intelligence Index

    51

    unabhängigArtificial Analysis (API), abgerufen 2026-06-17

  • Artificial Analysis Coding Index

    51

    unabhängigArtificial Analysis (API), abgerufen 2026-06-17

  • Terminal-Bench v2.1 (agentische Shell-Aufgaben)

    75 %

    unabhängigArtificial Analysis (API), abgerufen 2026-06-17

  • τ²-bench (Tool-Use-Verlässlichkeit)

    99 %

    unabhängigArtificial Analysis (API), abgerufen 2026-06-17

Einordnung

  • Open-Weight-MoE (MIT) wie GLM-5/5.1 (≈744 Mrd. Gesamt- / 40 Mrd. aktive Parameter; der Hugging-Face-Parameter-Badge nennt 753 Mrd.). Kernneuerung „IndexShare“: Der Indexer der Sparse Attention wird über je vier Layer geteilt – laut Model-Card ~2,9× weniger FLOPs/Token bei 1-Mio.-Kontext; das zugehörige Paper „IndexCache“ (arXiv 2603.12201, Bai et al.) misst bis 1,82× Prefill- und 1,48× Decode-Speedup gegenüber Standard-DSA. Dazu eine MTP-Schicht für Speculative Decoding (+ bis 20 % akzeptierte Länge). Reines Text-Modell, nutzbarer 1-Mio.-Kontext, 128-K-Output, neue höchste Reasoning-Stufe „max“. Beleg · Primärquelle
  • Delta zum Vorgänger GLM-5.1 (April 2026): Der nutzbare Kontext springt von 200 K auf 1 Mio. Token, der AA Intelligence/Coding Index von 40/43 auf 51/51, Terminal-Bench von 62 auf 75 %, dazu kommt die neue Reasoning-Stufe „max“ über „high“. Der Preis bleibt mit $1,40 / $4,40 je Mio. Token unverändert – derselbe Tarif bei deutlich höherer Leistung. Beleg · Sekundärquelle
  • Konkurrenz-Ausblick: Auf der unabhängigen AA-Intelligence-Liste ist GLM-5.2 (max) mit 51 das #1-Open-Weight-Modell – vor DeepSeek-V4-Pro und MiniMax-M3 (je 44) und Kimi K2.6 (43) – und zieht sogar an Gemini 3.1 Pro (46) vorbei. Zur proprietären Spitze bleibt aber Abstand: GPT-5.5 (55/59), Opus 4.8 (56/57) und Fable 5 (60/62) liegen darüber, beim Coding-Index führt auch Gemini 3.1 Pro (55) noch. Z.ais Eigenvergleiche (FrontierSWE 74,4 % „~1 % hinter Opus 4.8“; SWE-bench Pro 62,1 > GPT-5.5 58,6) sind anbieterbefangen und unabhängig nicht bestätigt – die Kernbotschaft „bestes offenes Coding-Modell, nahe an, aber nicht auf der proprietären Spitze“ trägt die unabhängige Messung jedoch. Beleg · Sekundärquelle
  • In der Praxis ist GLM-5.2 frei self-hostbar (MIT, „ohne regionale Grenzen“) und gegenüber den proprietären Flaggschiffen rund ein Sechstel so teuer ($1,40 / $4,40 vs. GPT-5.5 $5 / $30); laut AA läuft es mit ~112 Token/s zudem schnell. Innerhalb der Open-Weight-Klasse ist es laut AA für seine Größe allerdings vergleichsweise teuer (DeepSeek-V4-Pro $0,44 / $0,87, Kimi K2.6 $0,95 / $4). Z.ai veröffentlichte GLM-5.2 am 13.06.2026 unmittelbar nach der US-Sperre für Anthropics Fable/Mythos – Teil der „Airbus-Moment“-Debatte um offene chinesische Modelle als Antwort auf Exportkontrollen. Beleg · Sekundärquelle

Aus der System-Card

Verdichtete Befunde aus der offiziellen System-CardDas offizielle Begleitdokument eines Anbieters zu einem Modell (auch „Model Card“): Fähigkeiten, Grenzen, Sicherheitsbewertung. Primärquelle – die Fähigkeitsangaben darin sind aber Eigenangaben, nicht unabhängig gemessen.Mehr im Wissen → des Anbieters (Primärquelle, Tier (A/B/C)Verlässlichkeits-Stufe einer Quelle in der KI-Depesche: A = Primärquelle (z. B. offizielle Doku), B = solide Sekundärquelle, C = subjektiv/Einzelstimme. Steuert, wie stark eine Aussage gewichtet wird.Mehr im Wissen →). Fähigkeitswerte sind Anbieterangaben – nicht unabhängig nachgemessen. Card-Stand 2026-06-13.

Fähigkeiten

  • Coding & AgentikLaut Card 82,7 auf Terminal-Bench 2.1 (Z.ai-Doku: 81,0) und 62,1 auf SWE-bench Pro – deutlich über GLM-5.1 (62,0 / 58,4); auf FrontierSWE 74,4 %, laut Z.ai nur ~1 % hinter Claude Opus 4.8. Anbieter-selbstberichtet; die unabhängige AA-Messung liegt mit Terminal-Bench 75 % niedriger.
  • Reasoning & MathematikLaut Card 99,2 auf AIME 2026; neue höchste Reasoning-Stufe „max“ (Parameter reasoning_effort) über der bisherigen Stufe „high“.
  • Tool-UseLaut Card 77,0 auf MCP-Atlas (Tool-Use); nativer Function-Calling-, Structured-Output- und MCP-Support, ausgelegt auf lange agentische Coding-Horizonte.
  • KontextStabil nutzbarer 1-Mio.-Token-Kontext (von 200 K bei GLM-5.1), 128-K-Output; reines Text-Modell (Multimodalität nur im separaten GLM-5V).

Verhalten & Sicherheit

  • ArchitekturMoE mit Sparse Attention; „IndexShare“ teilt den Indexer über je vier Sparse-Attention-Layer und senkt laut Card die FLOPs/Token bei 1-Mio.-Kontext um 2,9×. Das Paper „IndexCache“ (arXiv 2603.12201) misst bis 1,82× Prefill- und 1,48× Decode-Speedup gegenüber Standard-DSA.
  • Speculative DecodingEine MTP-Schicht (Multi-Token-Prediction) für Speculative Decoding erhöht laut Card die akzeptierte Länge um bis zu 20 %.
  • ParameterDer Hugging-Face-Parameter-Badge nennt 753 Mrd.; die Familienarchitektur (GLM-5/5.1) ist ≈744 Mrd. total / 40 Mrd. aktiv – Divergenz dokumentiert.
  • LizenzMIT-Open-Source – laut Z.ai „keine regionalen Grenzen, technischer Zugang ohne Grenzen“; Gewichte frei auf Hugging Face (zai-org/GLM-5.2).
  • SafetyZ.ai dokumentiert GLM-5.2 über einen Technical Report (arXiv 2602.15763, „GLM-5: from Vibe Coding to Agentic Engineering“) und das IndexCache-Paper; eine dedizierte Safety-/Risiko-Card mit Refusal-/Misuse-Evals fehlt – anders als bei den westlichen Anbietern.

Alle Fähigkeitswerte sind anbieter-selbstberichtet (Z.ai-eigene Benchmarks, Cherry-Picking-Vorbehalt) – die unabhängigen Artificial-Analysis-Indizes (Intelligence/Coding je 51, Terminal-Bench 75 %) liegen unter den Card-Werten. Card-/Release-Stand 2026-06-13; AA-Variante „GLM-5.2 (max)“.

Z.ai – GLM-5.2 (Model-Card, Hugging Face)· Primärquelle, abgerufen 2026-06-17

Stimmen aus der Öffentlichkeit

Subjektive Einschätzungen Dritter – keine belegten Fakten, jeweils verlinkt.

ℹ️ Z.ai-Ankündigung 13.06.2026 (MIT-Open-Weights „nächste Woche“, Gewichte auf Hugging Face zai-org/GLM-5.2). MoE wie GLM-5/5.1 (≈744 Mrd. total / 40 Mrd. aktiv; HF-Param-Badge nennt 753 Mrd. – Divergenz dokumentiert, primär 744). Neue Architektur „IndexShare“ (cross-layer index reuse, ~2,9× weniger FLOPs/Token bei 1 Mio. Kontext, Paper „Index Cache“). Eigenbenchmarks (Frontier-SWE 74,4 % vs. Opus 4.8 75 %) sind Anbieterangaben → abgewertet; die AA-Indizes (Tier B) sind unabhängig. AA-Variante: GLM-5.2 (max).