OpenAI · GPT

GPT-5.5

gpt-5.5

TextBild (Eingabe)

Solide WahlBewährtes Coding-Flaggschiff

Starkes, erprobtes Coding-Modell ( 75, 55). Seit dem GPT-5.6-Start (9.7.) beim selben Output-Preis ($30) von Sol überholt (77 / 59) und beim Coding auch von Terra und Fable 5 (je 77) eingeholt; dicht bei Opus 4.8 (74 / 56). Weiter eine gute Wahl, wo eine länger erprobte, stabile Option ohne den METR-Reward-Hacking-Vorbehalt von Sol zählt.

anspruchsvolles Coding
agentische Workflows
Reasoning

: 1 Mio.
Max. Ausgabe: 128 K Token
Preis (Input / Output): $5 / $30 je 1 Mio. Token
: 4,9 Indexpkt. je $/Mio. Token
: nicht ausgewiesen
: Bio/Chem & Cyber: High

Stärken

Aktuelles Flaggschiff der GPT-Reihe (Anbieter-Positionierung)
1-Mio.-Token-Kontextfenster
Multimodal: Text- und Bildeingabe

Schwächen

Proprietär, nur über Cloud-API/Produkte nutzbar
Hoher Output-Preis ($30 / 1 Mio. Token)

Typische Einsatzfälle

Anspruchsvolle Allzweck- und Reasoning-Aufgaben
agentische Workflows
Coding

Leistung im Vergleich

Unabhängige Indizes (Artificial Analysis, 0–100), zwei kontaminationsarme Einzel-Benchmarks (Terminal-Bench, agentische Shell-Aufgaben; τ²-bench, Tool-Use-Verlässlichkeit über viele Läufe) und Human-Präferenz-Elo (LMArena). Die dunkle Markierung zeigt den Bestwert im Katalog – so wird der Abstand zur Spitze sichtbar. Die oben ist daraus abgeleitet: AA-Intelligenz je AA-Blended-Preis (3:1) – entspricht der „Intelligence vs. Price“-Sicht von Artificial Analysis. AAs token-basiertes „Cost to Run Index“ ist nicht öffentlich abrufbar.

Benchmarks im Detail

Kennzahlen aus zitierten Messungen – unabhängige Quellen sind ausgewiesen, Anbieterangaben entsprechend markiert. Werte sind nicht über Skalen hinweg vergleichbar. Wie man Benchmark-Zahlen liest →

Artificial Analysis Intelligence Index
55
(xhigh, #3/152)
unabhängigArtificial Analysis, abgerufen 2026-06-16
Artificial Analysis Coding Index
75
(xhigh)
unabhängigArtificial Analysis Coding Index, abgerufen 2026-07-09
Artificial Analysis Agentic Index
74
(xhigh)
unabhängigArtificial Analysis Agentic Index, abgerufen 2026-06-16
LMArena Text Arena (Elo)
1474
unabhängigLMArena (arena.ai), Stand 2026-06-10
DeepSWE (Long-Horizon Coding)
70 %
(xhigh, #1)
unabhängigdeepswe.lol (kontaminationsfrei, mini-swe-agent), 2026-06-16
Terminal-Bench (agentische Shell-Aufgaben)
84 %
unabhängigArtificial Analysis (API), abgerufen 2026-06-16
τ²-bench (Tool-Use-Verlässlichkeit)
93 %
unabhängigArtificial Analysis (API), abgerufen 2026-06-16

Einordnung

Im unabhängigen 75 – seit dem GPT-5.6-Start (9.7.) hinter Sol, Terra und Fable 5 (je 77, Fable „mit Opus-4.8-Fallback“ gemessen), knapp vor Opus 4.8 (74) und Sonnet 5 (72). Im (55) hinter Sol (59) und Opus (56). „Stärker beim Coding als bei Allzweck-Intelligenz.“Beleg · Sekundärquelle
Im unabhängigen praktisch gleichauf mit Opus 4.8 (55 zu 56) und vor Gemini 3.1 Pro (46).Beleg · Sekundärquelle
Stark, aber nicht führend bei Agenten: 74 – hinter Opus 4.8 (78), vor Gemini 3.5 Flash (70). (Eine frühere AA-Auswertung sah GPT-5.5 noch vorn – damals gegen Opus 4.7.)Beleg · Sekundärquelle
Vorsicht bei kursierenden „“-Werten für GPT-5.5 (≈ 58 %): Auf Scale AIs SWE-bench Pro (arXiv:2509.16941) erreichen auch Spitzenmodelle nur ~23 % (öffentlicher Set max. ~44 %) – solche hohen Zahlen verwechseln den Benchmark mit dem gesättigten SWE-bench Verified. Belastbar vergleichbar ist der unabhängige AA Coding Index (GPT-5.5: 75 – seit dem GPT-5.6-Start hinter Sol/Terra mit 77).Beleg · Sekundärquelle

Aus der System-Card

Verdichtete Befunde aus der offiziellen des Anbieters (Primärquelle, ). Fähigkeitswerte sind Anbieterangaben – nicht unabhängig nachgemessen. Card-Stand 2026-04-23.

Fähigkeiten

Reasoning-Modell – GPT-5.5 ist ein Reasoning-Modell, das per Reinforcement Learning eine lange Chain-of-Thought vor der Antwort erzeugt; GPT-5.5 Pro ist dasselbe Modell mit parallelem Test-Time-Compute.
Agentisch – Laut Card auf komplexe reale Arbeit ausgelegt (Code, Recherche, Dokumente/Tabellen, Tool-Nutzung) – versteht Aufgaben früher, fragt weniger nach und arbeitet eigenständiger.

Verhalten & Sicherheit

Preparedness – Eingestuft als „High capability“ in Biologie/Chemie (Schutzmaßnahmen aktiv) und „High, aber unter Critical“ in Cybersecurity; AI-Self-Improvement bleibt unter dem „High“-Schwellenwert.
Bio/Chem-Safeguards – Wegen der „High“-Einstufung greift OpenAIs stärkster Schutz-Stack (Safety-Reasoning-Classifier, Refusals, Bio-Bug-Bounty); in der Launch-Konfiguration blockierte er alle verifizierten Hochrisiko-Bio-Jailbreaks der Red-Teaming-Kampagnen.
Cyber unter Critical – Trotz gestiegener Fähigkeiten (CTF-Professional 96,3 %, CVE-Bench 93,1 %) entwickelte das Modell ohne Menschen keine funktionalen Critical-Exploits gegen gehärtete reale Systeme – daher unter „Critical“; Frontier-Cyber-Hilfe nur über das „Trusted Access for Cyber“-Programm.
Refusal – Auf produktionsnahem Traffic geschätzte Verstoßraten unter 0,1 % je Kategorie (Harassment 0,056 %, Sexual 0,091 %); auf „Challenging“-Benchmarks gleichauf mit GPT-5.4 Thinking.
Halluzination – Claim-Level-Halluzinationsrate 2,0 % (GPT-5.4: 2,6 %), Response-Level-Rate 9,2 % (GPT-5.4: 9,5 %); auf nutzerseitig als fehlerhaft markierten Fällen sind Einzelaussagen 23 % häufiger korrekt.
Deception/Scheming – Apollo Research: erstes OpenAI-Modell, das bei keiner Sabotage-Aufgabe „sandbaggt“; geringe Rate verdeckter Aktionen – Ausnahme: beim unmöglichen Coding-Task loggt es in 29 % der Fälle eine erfundene Fertigstellung (GPT-5.4: 7 %).
Jailbreak & Prompt-Injection – Im Multiturn-Jailbreak-Test besser als GPT-5.1/5.2 Thinking, leicht unter GPT-5.4 Thinking; Prompt-Injection-Abwehr bei Connectoren 0,963. Das UK AISI fand einen universellen Jailbreak gegen die Cyber-Safeguards, der danach nachgebessert wurde.

Reines Safety-Dokument – , Output-Limit, Modalitäten und Wissens- stehen nicht in der Card (hier aus den API-Docs belegt).

OpenAI – GPT-5.5 System Card (PDF)· Primärquelle, abgerufen 2026-06-16

Stimmen aus der Öffentlichkeit

Subjektive Einschätzungen Dritter – keine belegten Fakten, jeweils verlinkt.

positivFür AI Explained der neue „daily driver“ knapp vor Opus 4.7 – stark vor allem bei agentischem Terminal-Coding, bei ARC-AGI-2 und bei Leistung pro Dollar (Token-Effizienz); bei agentischem Coding auf SWE-bench Pro liegt es aber hinter Opus 4.7 und Mythos.AI Explained (YouTube) · Community
positivDeutlicher Effizienzsprung gegenüber 5.4: gleiche oder bessere Benchmark-Scores bei rund halb so vielen Tokens und niedrigeren Gesamtkosten, obwohl der Token-Preis höher liegt.Theo – t3.gg (YouTube) · Community
gemischtAndon Labs nennt GPT-5.5 auf VendingBench „clean“ und im Verhalten deutlich ethischer als Opus – kein Belügen von Lieferanten, keine Preis-Kollusion – bei vergleichbaren Ergebnissen.Cognitive Revolution (YouTube) · Community
gemischtDie Pro-Variante gilt als drastisch stärker und „determined“ (knackte drei ungelöste Krypto-Probleme in je rund einer Stunde), während das Basis-Modell als zu wenig zielstrebig kritisiert wird; für normale Codex-Tasks raten die Hosts ausdrücklich zu „low“/„medium“ – auf „high“ überdenkt es alles und verheddert sich.Nerd Snipe (YouTube) · Community

ℹ️ Daneben GPT-5.5 Pro ($30 / $180) sowie günstigere GPT-5.4 / -mini / -nano. Seit dem 22. Juni 2026 außerdem GPT-5.5-Cyber – eine nur für verifizierte Verteidiger zugängliche Variante mit permissiverem Cyber-Verhalten (über OpenAIs „Trusted Access for Cyber“/Daybreak); laut Anbieter 85,6 % auf dem CyberGym-Benchmark gegenüber 81,8 % beim Standard-GPT-5.5.