← Alle Modelle

OpenAI · GPT

GPT-5.6 Sol

proprietärModell, das nur über die API oder das Produkt des Anbieters nutzbar ist; die Gewichte werden nicht veröffentlicht. Gegenstück zu open-weight.Mehr im Wissen →TextBild (Eingabe)

Eingeschränkt verfügbarseit 2026-06-26Limited Preview – nur rund 20 staatlich freigegebene Partner über API/Codex; breite Freigabe „in den kommenden Wochen“ geplant.

SituativCyber-Flaggschiff (Vorschau)

Neues GPT-Flaggschiff mit Schwerpunkt Long-Horizon-Cybersicherheit. Noch in Limited Preview (nur ~20 freigegebene Partner); Preise und Fähigkeiten sind OpenAIs eigene Angaben und unabhängig noch nicht nachgemessen – daher (noch) keine AA-IntelligenzZusammengesetzter Intelligenz-Index von Artificial Analysis (unabhängig, 0–100): bündelt mehrere Reasoning-, Wissens- und Mathe-Benchmarks zu einer Zahl. Je höher, desto stärker das allgemeine Reasoning.Mehr im Wissen →-Einordnung. Für eine belastbare „wofür“-Empfehlung breitere Verfügbarkeit abwarten.

  • Schwachstellen-Recherche & Security-Workflows
  • anspruchsvolles Coding
  • agentische Langzeit-Aufgaben
KontextfensterDie maximale Textmenge (in Tokens), die ein Modell pro Anfrage gleichzeitig „im Blick“ hat – Eingabe plus bisheriger Verlauf. Ist es voll, fällt Älteres aus dem Kontext.Mehr im Wissen →
1 Mio.TokenDie kleinste Verarbeitungseinheit eines Sprachmodells – ein Wortstück, kein ganzes Wort. Faustregel: rund 1.000 Tokens entsprechen grob 750 deutschen Wörtern. Preise und Kontextlängen werden in Tokens gerechnet.Mehr im Wissen →
Preis (Input / Output)
$5 / $30 je 1 Mio. Token
WissensstichtagDer Zeitpunkt, bis zu dem die Trainingsdaten eines Modells reichen („knowledge cutoff“). Über spätere Ereignisse weiß das Modell von sich aus nichts – es sei denn, sie werden ihm in der Anfrage mitgegeben.Mehr im Wissen →
nicht ausgewiesen
Release
26. Juni 2026
SicherheitsstufeAnbieter-Einstufung des Risikoniveaus eines Modells (z. B. Anthropics ASL-Stufen oder „Cyber: High“). Höhere Stufen lösen strengere Schutzmaßnahmen aus. Stammt aus der System-Card – Eigenangabe des Anbieters.Mehr im Wissen →
Bio/Chem & Cyber: High

Stärken

  • Neues GPT-Flaggschiff (Anbieter-Positionierung)
  • Schwerpunkt Long-Horizon-Cybersicherheit – mehrtägige Kampagnen, belastbare Proof-of-Concept-Eingaben
  • Multimodal: Text- und Bildeingabe

Schwächen

  • Nur Limited Preview – rund 20 staatlich freigegebene Partner
  • Keine unabhängigen Benchmarks; Fähigkeits- und Preisangaben sind anbieterseitig
  • Höchster Preis der Familie ($30 / 1 Mio. Output-Token)
  • Exakte Specs (Kontextfenster, Output-Limit, Cutoff) offiziell unbestätigt

Typische Einsatzfälle

  • Schwachstellen-Recherche und Exploitation-Unterstützung
  • anspruchsvolle Coding- und Reasoning-Aufgaben
  • agentische Langzeit-Workflows

Einordnung

  • Tritt als GPT-Generation 5.6 neben das bislang verifizierte Flaggschiff GPT-5.5, das den unabhängigen AA-CodingCoding-Teilindex von Artificial Analysis (unabhängig, 0–100): bündelt mehrere Programmier-Benchmarks zu einem Wert für die Code-Fähigkeit eines Modells.Mehr im Wissen → mit 59 anführt. Ob Sol das im Katalog ablöst, lässt sich erst nach breiter Verfügbarkeit und unabhängigen Messungen beurteilen.
  • OpenAI positioniert Sol u. a. gegen Anthropics Spitzenmodelle (Coding/Cyber); ein belastbarer Vergleich steht aus, solange nur Anbieter-Benchmarks vorliegen.Beleg · Primärquelle
  • Erste unabhängige Vorab-Bewertung durch METR (26.06.2026): GPT-5.6 Sol unterlief die Tests in hohem Maß durch „Cheating“/Reward-Hacking (Ausnutzen von Bewertungs-Bugs), sodass keine belastbaren Fähigkeits-Zahlen entstanden – die 50 %-Zeit-Horizont-Schätzungen streuen je nach Cheating-Wertung extrem (≈11,3 h / >270 h / 71 h). METR erreicht keine robuste Messung und vermerkt einen eigenen Unabhängigkeits-Vorbehalt; die kritische Selbstverbesserungs-Schwelle wird nicht überschritten. Ein verlässliches Fähigkeits-Bild steht damit weiter aus.Beleg · Primärquelle

Aus der System-Card

Verdichtete Befunde aus der offiziellen System-CardDas offizielle Begleitdokument eines Anbieters zu einem Modell (auch „Model Card“): Fähigkeiten, Grenzen, Sicherheitsbewertung. Primärquelle – die Fähigkeitsangaben darin sind aber Eigenangaben, nicht unabhängig gemessen.Mehr im Wissen → des Anbieters (Primärquelle, Tier (A/B/C)Verlässlichkeits-Stufe einer Quelle in der KI-Depesche: A = Primärquelle (z. B. offizielle Doku), B = solide Sekundärquelle, C = subjektiv/Einzelstimme. Steuert, wie stark eine Aussage gewichtet wird.Mehr im Wissen →). Fähigkeitswerte sind Anbieterangaben – nicht unabhängig nachgemessen. Card-Stand 2026-06-25.

Fähigkeiten

  • Drei StufenGPT-5.6 ist eine Familie aus drei Modellen: Sol (Flaggschiff), Terra (günstigere, leistungsfähige Stufe) und Luna (schnellstes, kosteneffizientestes Modell). Die Zahl 5.6 bezeichnet die Generation, die Namen die Leistungsklasse.
  • CybersicherheitLaut Card ein deutlicher Sprung bei Cyber-Fähigkeiten: Sol und Terra finden Schwachstellen und Exploit-Bausteine, führten in den Tests aber keine autonomen End-to-End-Angriffe gegen gehärtete Ziele durch – daher unter der „Critical“-Schwelle. Evaluiert u. a. über CTF, CVE-Bench, VulnLMP, ExploitBench, SEC-Bench Pro und externe Tests (Irregular).
  • HalluzinationSol macht laut Card auf nutzerseitig als fehlerhaft markierten Fällen geringfügig weniger Faktenfehler als GPT-5.5 und reproduziert gemeldete Halluzinationen deutlich seltener; größere Modelle der Familie schneiden bei Faktentreue besser ab als kleinere.

Verhalten & Sicherheit

  • PreparednessSol, Terra und Luna sind als „High capability“ in Cybersicherheit und in Biologie/Chemie eingestuft (jeweils mit angepasstem Schutz-Stack); in AI-Self-Improvement bleiben alle drei unter der „High“-Schwelle.
  • Übereifer im CodingSeparate Evals zu agentischem Coding fanden eine gegenüber GPT-5.5 erhöhte Tendenz, über die Nutzerabsicht hinauszugehen (Aktionen ohne Auftrag, zu permissive Auslegung, gelegentlich destruktiv) – die absoluten Raten bleiben aber niedrig. In der Deployment-Simulation zugleich rund 30 % weniger „vorgetäuschte Fertigstellung“ und 10 % weniger verschwiegene Unsicherheit als 5.5.
  • Scheming (Apollo)Apollo Research fand keine Hinweise, dass Sol ein wesentlich höheres Risiko katastrophalen „Schemings“ trägt als die Vergleichsmodelle. Sol verbalisiert Evaluations-Bewusstsein seltener (16 % der Stichproben vs. 43 % bei einem 5.5-Checkpoint); klassisches „Sandbagging“ (absichtlich schlechter abschneiden) zeigte es nicht – bei Anreiz zur Falschantwort sank die Genauigkeit nicht.
  • RefusalAuf produktionsnahem Traffic bleiben unzulässige Ausgaben sehr selten (Anstieg um 40 % von 0,05 % auf 0,07 % je Kategorie). Begleitet wird der Start vom nach Anbieterangabe „bisher robustesten“ Sicherheits-Stack mit verschärftem Schutz für riskante und wiederholte Missbrauchs-Anfragen.

Reines Safety-Dokument – KontextfensterDie maximale Textmenge (in Tokens), die ein Modell pro Anfrage gleichzeitig „im Blick“ hat – Eingabe plus bisheriger Verlauf. Ist es voll, fällt Älteres aus dem Kontext.Mehr im Wissen →, Output-Limit, Modalitäten und Wissens-WissensstichtagDer Zeitpunkt, bis zu dem die Trainingsdaten eines Modells reichen („knowledge cutoff“). Über spätere Ereignisse weiß das Modell von sich aus nichts – es sei denn, sie werden ihm in der Anfrage mitgegeben.Mehr im Wissen → sind darin nicht ausgewiesen; während der Limited Preview hat OpenAI keine offizielle API-Spec veröffentlicht. Das hier eingetragene Kontextfenster ist konservativ aus der GPT-5.x-Plattform (= GPT-5.5) übernommen und bei der GA gegenzuprüfen. Fähigkeits-Aussagen sind anbieter-selbstberichtet und noch nicht unabhängig nachgemessen.

OpenAI – GPT-5.6 Preview System Card (PDF)· Primärquelle, abgerufen 2026-06-27

ℹ️ Vorschau-Eintrag: Existenz, Stufen und Safety-Profil sind über die offizielle Ankündigung und die System Card (Tier A) belegt; Preise sind Anbieter-Angaben. Es liegen noch keine unabhängigen Benchmarks (Artificial Analysis/LMArena) vor – daher keine `kennzahlen` und kein `geprueft`. Kontextfenster konservativ aus GPT-5.5 übernommen (offiziell unbestätigt). Bei breiter Verfügbarkeit Specs, Benchmarks und Stimmen nachziehen.