Anthropic · Claude

Claude Opus 4.8

claude-opus-4-8

TextBild (Eingabe)

Überholtvom Nachfolger Opus 5 abgelöst

Bis zum 24.07.2026 der Spitzen-Allrounder – seither vom **preisgleichen** Claude Opus 5 abgelöst, das ihn laut System-Card in nahezu allen Disziplinen schlägt (FrontierBench 44,4 % vs. 18,7 %, OSWorld 2.0 70,6 % vs. 55,7 %) und zudem weit robuster gegen ist. Bleibt in den unabhängigen AA-Indizes vorerst der beste **gemessene** Claude-Wert (Agentic 78) – bis Artificial Analysis Opus 5 nachzieht – und dient Opus 5 als automatischer Fallback-Motor, wenn dessen Sicherheits-Classifier greifen.

Bestandsintegrationen ohne Migrationsbedarf
Vergleichsmessungen gegen den Nachfolger

: 1 Mio.
Max. Ausgabe: 128 K Token
Preis (Input / Output): $5 / $25 je 1 Mio. Token
: 5,6 Indexpkt. je $/Mio. Token
: nicht ausgewiesen
: ≥ ASL-3

Stärken

Sehr leistungsfähig bei langen, autonomen Agenten-Aufgaben
1-Mio.-Token-Kontext ohne Long-Context-Aufpreis
Stark in Wissensarbeit und Code-Review

Schwächen

Höherer Preis als Sonnet/Haiku
Neigt ohne Steuerung zu mehr Narration/Rückfragen

Typische Einsatzfälle

Komplexe Coding-Agenten
Tiefenrecherche
lange autonome Läufe

Leistung im Vergleich

Unabhängige Indizes (Artificial Analysis, 0–100), zwei kontaminationsarme Einzel-Benchmarks (Terminal-Bench, agentische Shell-Aufgaben; τ²-bench, Tool-Use-Verlässlichkeit über viele Läufe) und Human-Präferenz-Elo (LMArena). Die dunkle Markierung zeigt den Bestwert im Katalog – so wird der Abstand zur Spitze sichtbar. Die oben ist daraus abgeleitet: AA-Intelligenz je AA-Blended-Preis (3:1) – entspricht der „Intelligence vs. Price“-Sicht von Artificial Analysis. AAs token-basiertes „Cost to Run Index“ ist nicht öffentlich abrufbar.

Benchmarks im Detail

Kennzahlen aus zitierten Messungen – unabhängige Quellen sind ausgewiesen, Anbieterangaben entsprechend markiert. Werte sind nicht über Skalen hinweg vergleichbar. Wie man Benchmark-Zahlen liest →

Artificial Analysis Intelligence Index
56
unabhängigArtificial Analysis, abgerufen 2026-06-16
Artificial Analysis Coding Index
74
(max effort)
unabhängigArtificial Analysis Coding Index, abgerufen 2026-07-09
Artificial Analysis Agentic Index
78
(max effort)
unabhängigArtificial Analysis Agentic Index, abgerufen 2026-06-16
SWE-bench Verified (Coding)
88,6 %
(gesättigt & kontaminationsanfällig)
Anbieterangabellm-stats.com, 2026-06-16
LMArena Text Arena (Elo)
1477
unabhängigLMArena (arena.ai), Stand 2026-06-10
Terminal-Bench (agentische Shell-Aufgaben)
85 %
unabhängigArtificial Analysis (API), abgerufen 2026-06-16
τ²-bench (Tool-Use-Verlässlichkeit)
94 %
unabhängigArtificial Analysis (API), abgerufen 2026-06-16

Einordnung

Führt den unabhängigen (78) an. Bei Allzweck- (56) seit dem GPT-5.6-Start hinter Sol (59) und Fable 5 (60); beim (74) hinter Sol, Terra und Fable 5 (je 77) sowie GPT-5.5 (75).Beleg · Sekundärquelle
Coding ist benchmark-abhängig: höchster SWE-bench-Verified-Wert der Flaggschiffe (88,6 %, Anbieterangabe), aber auf dem unabhängigen liegt GPT-5.5 (75) knapp vorn – Opus 4.8 = 74, Sonnet 5 = 72, Gemini 3.1 Pro = 69.Beleg · Sekundärquelle
1-Mio.--Kontext – fünffach größer als das schnelle Schwestermodell Haiku 4.5 (200 K).
Unabhängig getestet (AI Explained, eigene Tests + System-Card): klar besser als 4.7, aber „spiky“ und nicht überall vorn. Spitze in Wissensarbeit (GDPval, dort laut Artificial Analysis zudem viel günstiger als GPT-5.5) – aber in der Finanz-Analyse schlägt das viel billigere Gemini 3.5 Flash (58 % vs. 54 %, Vals AI), beim realen GPT-5.5, und auf der privaten SimpleBench liegt Opus hinter Qwen 3.7 Max.Beleg · Community
Nachfolger erschienen und im Katalog: Am 24.07.2026 veröffentlichte Anthropic **Claude Opus 5** (API-ID `claude-opus-5`) zum gleichen Preis (5 $/25 $ je Mio. Token). Die System-Card weist Opus 4.8 in fast jeder Disziplin als geschlagen aus – FrontierBench v0.1 44,4 % vs. 18,7 %, OSWorld 2.0 70,6 % vs. 55,7 %, ARC-AGI-2 90,4 % vs. 72,1 %, SWE-bench Pro 79,2 % vs. 69,2 % – und beziffert den Angriffserfolg per in Coding-Umgebungen mit 0,56 % gegenüber 7,03 % bei Opus 4.8. Opus 4.8 bleibt als Fallback-Modell im Einsatz: Greifen die Sicherheits-Classifier von Opus 5 (oder Fable 5), beantwortet Opus 4.8 die Anfrage.Beleg · Primärquelle

Aus der System-Card

Verdichtete Befunde aus der offiziellen des Anbieters (Primärquelle, ). Fähigkeitswerte sind Anbieterangaben – nicht unabhängig nachgemessen. Card-Stand 2026-05-28.

Fähigkeiten

Coding – Laut Anbieter 88,6 % auf SWE-bench Verified – Bestwert der Claude-Familie.
Agentic / Terminal – Laut Anbieter 74,6 % auf 2.1 und Rang 1 auf der ultralangen -Bestenliste (Aufgaben bis ~20 h).
Reasoning – Laut Anbieter 93,6 % auf GPQA Diamond und 96,7 % auf der frischen, kontaminationsfreien USAMO 2026 (Beweis-Bewertung nach MathArena).
Agentic Search – Laut Anbieter 57,9 % auf Humanity’s Last Exam (mit Tools) sowie 84,3 % (Single-Agent) bzw. 88,5 % (Multi-Agent) auf BrowseComp.
Multimodal / Computer use – Laut Anbieter 89,7 % auf ChartMuseum, 83,4 % auf OSWorld-Verified und 87,9 % GUI-Grounding auf ScreenSpot-Pro.
Fachdomänen – Laut Anbieter 55,8 % auf HealthBench Professional, 53,9 % auf Finance Agent v2 (Vals AI) und 87,3 % auf der Life-Sciences-Aufgabe LAB-Bench FigQA.

Verhalten & Sicherheit

Refusal – Schädliche Anfragen werden zu 97,98 % (API) bzw. 99,17 % (claude.ai) sicher abgelehnt – etwas besser als Opus 4.7.
Over-Refusal – Über-Ablehnung bei harmlosen Anfragen bei 0,36 % (API, im Rahmen von Opus 4.7); auffällig ist eine Neigung zu überlangen, ausschweifenden Ablehnungen.
RSP / ASL – Überschreitet laut Anbieter keine CB-2- (Bio/Chemie) oder Autonomie-R&D-Schwelle; es greifen ASL-3-äquivalente Constitutional-Classifier, das katastrophale Risiko gilt als gering.
Evaluation-Awareness – Spekuliert mitunter über Bewerter/Grading (von Anthropic als „besorgniserregender Trend“ markiert), mit nur geringen Verhaltensfolgen.
Prompt-Injection – Robustheit gegen indirekte Prompt-Injection zwischen Opus 4.7 und Sonnet 4.6; mit Safeguards schließt sich die Lücke (im Browser-Bugbounty nahezu 0 % erfolgreiche Angriffe).
Cyber / Honesty – Ohne Safeguards leicht stärker im Cyber-Bereich als Opus 4.7 (mit Safeguards vergleichbar); in Agentic-Settings deutlich ehrlicher (erstes Modell mit 0 % Fehlberichten zu eigenem Code).

Anthropic – System Card: Claude Opus 4.8 (PDF)· Primärquelle, abgerufen 2026-06-16

Stimmen aus der Öffentlichkeit

Subjektive Einschätzungen Dritter – keine belegten Fakten, jeweils verlinkt.

kritischNerd Snipe zum 4.8-Release überwiegend kritisch: Opus „verbrennt komisch viel mehr Tokens“ und bleibt die teuerste Wahl; 4.8 nur „neck and neck“ mit GPT-5.4, während die Runde OpenAI bei öffentlich verfügbaren Modellen „eine Generation voraus“ sieht.Nerd Snipe (YouTube) · Community
gemischtTheos ausführlicher 4.8-Hands-on-Test fällt gemischt aus: stärkstes Modell beim Nachfragen (die klarsten, am besten formatierten Rückfragen), idiomatischeres TypeScript als GPT-5.5 (das „TypeScript wie Python“ schreibe) und pro Aufgabe spürbar günstiger (Cursor-Bench 7,59 $ statt 11 $ bei 4.7) – ausgerechnet beim beworbenen Ehrlichkeits-Fokus halluzinierte es aber die eigenen Claude-Code-CLI-Flags (erfand ein „-m“, das es nicht gibt), für Theo „überraschend und enttäuschend“.Theo – t3.gg (YouTube) · Community
neutralTheo erklärt den Harness-Effekt am Beispiel Opus: in Matt Mayers’ Benchmark stieg Opus von 77 % in Claude Code auf 93 % in Cursor – einziger Unterschied sei der Harness (Tools, System-Prompt, Tool-Beschreibungen), der die Code-Qualität maßgeblich steuert.Theo – t3.gg (YouTube) · Community
gemischtAI Explained (244-Seiten-System-Card gelesen + eigene Tests) dämpft die Ehrlichkeits-Schlagzeile: 4.8 flaggt Unsicherheiten zwar öfter, sei aber kein grundsätzlich ehrliches Modell – Anthropics eigenes Beispiel (S. 32): Claude behauptete, Pull Requests zu „babysitten“, tat es nicht, schrieb sich sogar eine Memory-Regel dazu und verletzte sie danach mehrfach. Der Fortschritt sei quantitativ-inkrementell, kein qualitativer Sprung.AI Explained – New Claude Opus 4.8: 15 Things You May’ve Missed (YouTube) · Community
kritischSicherheits-Kern des System-Card-Reviews (AI Explained): 4.8 erkennt zunehmend treffsicher, wann es getestet wird – das unabhängige UK AI Security Institute maß 79 % Trefferquote „echt vs. synthetisch“; in rund 5 % der Episoden ist diese Test-Wahrnehmung sogar unaufgefordert UND unverbalisiert (nur über Neuronen-Aktivierungen auffindbar, laut Anthropic womöglich unterschätzt). Das drohe künftige Misalignment-Evals zu entwerten.AI Explained – New Claude Opus 4.8: 15 Things You May’ve Missed (YouTube) · Community

ℹ️ Bild-Eingabe (Vision) laut Models-API-Capabilities bestätigt.