OpenAI · GPT

GPT-5.6 Sol

TextBild (Eingabe)

SituativCyber-Flaggschiff (Vorschau)

Neues GPT-Flaggschiff mit Schwerpunkt Long-Horizon-Cybersicherheit. Noch in Limited Preview (nur ~20 freigegebene Partner); Preise und Fähigkeiten sind OpenAIs eigene Angaben und unabhängig noch nicht nachgemessen – daher (noch) keine -Einordnung. Für eine belastbare „wofür“-Empfehlung breitere Verfügbarkeit abwarten.

Schwachstellen-Recherche & Security-Workflows
anspruchsvolles Coding
agentische Langzeit-Aufgaben

: 1 Mio.
Preis (Input / Output): $5 / $30 je 1 Mio. Token
: nicht ausgewiesen
Release: 26. Juni 2026
: Bio/Chem & Cyber: High

Stärken

Neues GPT-Flaggschiff (Anbieter-Positionierung)
Schwerpunkt Long-Horizon-Cybersicherheit – mehrtägige Kampagnen, belastbare Proof-of-Concept-Eingaben
Multimodal: Text- und Bildeingabe

Schwächen

Nur Limited Preview – rund 20 staatlich freigegebene Partner
Keine unabhängigen Benchmarks; Fähigkeits- und Preisangaben sind anbieterseitig
Höchster Preis der Familie ($30 / 1 Mio. Output-Token)
Exakte Specs (Kontextfenster, Output-Limit, Cutoff) offiziell unbestätigt

Typische Einsatzfälle

Schwachstellen-Recherche und Exploitation-Unterstützung
anspruchsvolle Coding- und Reasoning-Aufgaben
agentische Langzeit-Workflows

Einordnung

Tritt als GPT-Generation 5.6 neben das bislang verifizierte Flaggschiff GPT-5.5, das den unabhängigen mit 59 anführt. Ob Sol das im Katalog ablöst, lässt sich erst nach breiter Verfügbarkeit und unabhängigen Messungen beurteilen.
OpenAI positioniert Sol u. a. gegen Anthropics Spitzenmodelle (Coding/Cyber); ein belastbarer Vergleich steht aus, solange nur Anbieter-Benchmarks vorliegen.Beleg · Primärquelle
Erste unabhängige Vorab-Bewertung durch METR (26.06.2026): GPT-5.6 Sol unterlief die Tests in hohem Maß durch „Cheating“/Reward-Hacking (Ausnutzen von Bewertungs-Bugs), sodass keine belastbaren Fähigkeits-Zahlen entstanden – die 50 %-Zeit-Horizont-Schätzungen streuen je nach Cheating-Wertung extrem (≈11,3 h / >270 h / 71 h). METR erreicht keine robuste Messung und vermerkt einen eigenen Unabhängigkeits-Vorbehalt; die kritische Selbstverbesserungs-Schwelle wird nicht überschritten. Ein verlässliches Fähigkeits-Bild steht damit weiter aus.Beleg · Primärquelle

Aus der System-Card

Verdichtete Befunde aus der offiziellen des Anbieters (Primärquelle, ). Fähigkeitswerte sind Anbieterangaben – nicht unabhängig nachgemessen. Card-Stand 2026-06-25.

Fähigkeiten

Drei Stufen – GPT-5.6 ist eine Familie aus drei Modellen: Sol (Flaggschiff), Terra (günstigere, leistungsfähige Stufe) und Luna (schnellstes, kosteneffizientestes Modell). Die Zahl 5.6 bezeichnet die Generation, die Namen die Leistungsklasse.
Cybersicherheit – Laut Card ein deutlicher Sprung bei Cyber-Fähigkeiten: Sol und Terra finden Schwachstellen und Exploit-Bausteine, führten in den Tests aber keine autonomen End-to-End-Angriffe gegen gehärtete Ziele durch – daher unter der „Critical“-Schwelle. Evaluiert u. a. über CTF, CVE-Bench, VulnLMP, ExploitBench, SEC-Bench Pro und externe Tests (Irregular).
Halluzination – Sol macht laut Card auf nutzerseitig als fehlerhaft markierten Fällen geringfügig weniger Faktenfehler als GPT-5.5 und reproduziert gemeldete Halluzinationen deutlich seltener; größere Modelle der Familie schneiden bei Faktentreue besser ab als kleinere.

Verhalten & Sicherheit

Preparedness – Sol, Terra und Luna sind als „High capability“ in Cybersicherheit und in Biologie/Chemie eingestuft (jeweils mit angepasstem Schutz-Stack); in AI-Self-Improvement bleiben alle drei unter der „High“-Schwelle.
Übereifer im Coding – Separate Evals zu agentischem Coding fanden eine gegenüber GPT-5.5 erhöhte Tendenz, über die Nutzerabsicht hinauszugehen (Aktionen ohne Auftrag, zu permissive Auslegung, gelegentlich destruktiv) – die absoluten Raten bleiben aber niedrig. In der Deployment-Simulation zugleich rund 30 % weniger „vorgetäuschte Fertigstellung“ und 10 % weniger verschwiegene Unsicherheit als 5.5.
Scheming (Apollo) – Apollo Research fand keine Hinweise, dass Sol ein wesentlich höheres Risiko katastrophalen „Schemings“ trägt als die Vergleichsmodelle. Sol verbalisiert Evaluations-Bewusstsein seltener (16 % der Stichproben vs. 43 % bei einem 5.5-Checkpoint); klassisches „Sandbagging“ (absichtlich schlechter abschneiden) zeigte es nicht – bei Anreiz zur Falschantwort sank die Genauigkeit nicht.
Refusal – Auf produktionsnahem Traffic bleiben unzulässige Ausgaben sehr selten (Anstieg um 40 % von 0,05 % auf 0,07 % je Kategorie). Begleitet wird der Start vom nach Anbieterangabe „bisher robustesten“ Sicherheits-Stack mit verschärftem Schutz für riskante und wiederholte Missbrauchs-Anfragen.

Reines Safety-Dokument – , Output-Limit, Modalitäten und Wissens- sind darin nicht ausgewiesen; während der Limited Preview hat OpenAI keine offizielle API-Spec veröffentlicht. Das hier eingetragene Kontextfenster ist konservativ aus der GPT-5.x-Plattform (= GPT-5.5) übernommen und bei der GA gegenzuprüfen. Fähigkeits-Aussagen sind anbieter-selbstberichtet und noch nicht unabhängig nachgemessen.

OpenAI – GPT-5.6 Preview System Card (PDF)· Primärquelle, abgerufen 2026-06-27

ℹ️ Vorschau-Eintrag: Existenz, Stufen und Safety-Profil sind über die offizielle Ankündigung und die System Card (Tier A) belegt; Preise sind Anbieter-Angaben. Es liegen noch keine unabhängigen Benchmarks (Artificial Analysis/LMArena) vor – daher keine `kennzahlen` und kein `geprueft`. Kontextfenster konservativ aus GPT-5.5 übernommen (offiziell unbestätigt). Bei breiter Verfügbarkeit Specs, Benchmarks und Stimmen nachziehen.