← Alle Depeschen

Modelleneu

Offenes GLM-5.2 schlägt in einem unabhängigen Schwachstellen-Test Claude Code

Das frei verfügbare chinesische Modell GLM-5.2 (Z.ai) erreicht in einem unabhängigen Sicherheits-Benchmark der Firma Semgrep beim Aufspüren von IDOR-Schwachstellen einen F1-Wert von 39 % und liegt damit vor Claude Code (32–37 %). The Verge berichtete am 28. Juni 2026, einige Forscher sähen GLM-5.2 bei bestimmten Bug-Finding-Aufgaben auf Augenhöhe mit Anthropics zugangsbeschränktem Mythos. Auf breiten Allzweck-Benchmarks bleibt GLM-5.2 hinter den US-Spitzenmodellen.

Z.ai (Zhipu AI) hatte GLM-5.2 am 13. Juni 2026 als MIT-Open-Weight-Modell veröffentlicht – frei herunterladbar, fein­justierbar und ohne regionale Zugangsgrenzen. Anlass der neuen Berichterstattung ist nicht das Release selbst, sondern eine Sicherheits-Auswertung: Das Code-Security-Unternehmen Semgrep maß im Juni 2026 die Erkennung von IDOR-Schwachstellen (Insecure Direct Object Reference) und attestierte GLM-5.2 einen F1-Wert von 39 % – vor Claude Code mit 32–37 %. Die Firma Graphistry bestätigte die Stoßrichtung in eigenen Sicherheits-Benchmarks.

The Verge fasste die Befunde am 28. Juni 2026 unter der Aussage zusammen, GLM-5.2 könne bei bestimmten Bug-Finding- und Cybersicherheits-Szenarien mit Anthropics Mythos mithalten. Wichtig ist der Zuschnitt: Es geht um spezialisierte Schwachstellen-Suche, nicht um allgemeine Modellstärke. Auf den breiten, unabhängigen Indizes (Artificial Analysis Intelligence/Coding je 51) bleibt GLM-5.2 weiterhin deutlich hinter den proprietären Spitzen GPT-5.5, Opus 4.8 und Fable 5.

Einordnung: Der politische Sprengstoff liegt in der Kombination aus Fähigkeit und Offenheit. Genau die Cyber-Fähigkeit, wegen der Washington Mythos und GPT-5.6 nur an gelistete Partner freigibt, ist hier in einem Modell, das jeder lokal auf Consumer-Hardware betreiben und dessen Sicherheits-Leitplanken sich entfernen lassen. Laut der Berichterstattung kursierten in russischsprachigen Foren schon Tage nach dem Release Jailbreak-Anleitungen. Das verschärft die „Airbus-Moment“-Debatte: Offene chinesische Modelle untergraben die Wirksamkeit von Exportkontrollen, die auf Verknappung statt auf Verteidigung setzen. Die Semgrep-Zahl ist eine unabhängige Drittmessung; die weitergehende Gleichsetzung mit Mythos stammt aus der Verge-Berichterstattung und ist auf die getesteten Nischenaufgaben begrenzt.