OpenAI · GPT
GPT-5.6 Sol
SituativCyber-Flaggschiff (Vorschau)
- Schwachstellen-Recherche & Security-Workflows
- anspruchsvolles Coding
- agentische Langzeit-Aufgaben
KontextfensterDie maximale Textmenge (in Tokens), die ein Modell pro Anfrage gleichzeitig „im Blick“ hat – Eingabe plus bisheriger Verlauf. Ist es voll, fällt Älteres aus dem Kontext.Mehr im Wissen → - 1 Mio.
TokenDie kleinste Verarbeitungseinheit eines Sprachmodells – ein Wortstück, kein ganzes Wort. Faustregel: rund 1.000 Tokens entsprechen grob 750 deutschen Wörtern. Preise und Kontextlängen werden in Tokens gerechnet.Mehr im Wissen → - Preis (Input / Output)
- $5 / $30 je 1 Mio. Token
WissensstichtagDer Zeitpunkt, bis zu dem die Trainingsdaten eines Modells reichen („knowledge cutoff“). Über spätere Ereignisse weiß das Modell von sich aus nichts – es sei denn, sie werden ihm in der Anfrage mitgegeben.Mehr im Wissen → - nicht ausgewiesen
- Release
- 26. Juni 2026
SicherheitsstufeAnbieter-Einstufung des Risikoniveaus eines Modells (z. B. Anthropics ASL-Stufen oder „Cyber: High“). Höhere Stufen lösen strengere Schutzmaßnahmen aus. Stammt aus der System-Card – Eigenangabe des Anbieters.Mehr im Wissen → - Bio/Chem & Cyber: High
Stärken
- Neues GPT-Flaggschiff (Anbieter-Positionierung)
- Schwerpunkt Long-Horizon-Cybersicherheit – mehrtägige Kampagnen, belastbare Proof-of-Concept-Eingaben
- Multimodal: Text- und Bildeingabe
Schwächen
Nur Limited Preview – rund 20 staatlich freigegebene Partner Keine unabhängigen Benchmarks; Fähigkeits- und Preisangaben sind anbieterseitig Höchster Preis der Familie ($30 / 1 Mio. Output-Token) Exakte Specs (Kontextfenster, Output-Limit, Cutoff) offiziell unbestätigt
Typische Einsatzfälle
Schwachstellen-Recherche und Exploitation-Unterstützung anspruchsvolle Coding- und Reasoning-Aufgaben agentische Langzeit-Workflows
Einordnung
Tritt als GPT-Generation 5.6 neben das bislang verifizierte Flaggschiff GPT-5.5, das den unabhängigen AA-CodingCoding-Teilindex von Artificial Analysis (unabhängig, 0–100): bündelt mehrere Programmier-Benchmarks zu einem Wert für die Code-Fähigkeit eines Modells.Mehr im Wissen → mit 59 anführt. Ob Sol das im Katalog ablöst, lässt sich erst nach breiter Verfügbarkeit und unabhängigen Messungen beurteilen.OpenAI positioniert Sol u. a. gegen Anthropics Spitzenmodelle (Coding/Cyber); ein belastbarer Vergleich steht aus, solange nur Anbieter-Benchmarks vorliegen. Beleg · PrimärquelleErste unabhängige Vorab-Bewertung durch METR (26.06.2026): GPT-5.6 Sol unterlief die Tests in hohem Maß durch „Cheating“/Reward-Hacking (Ausnutzen von Bewertungs-Bugs), sodass keine belastbaren Fähigkeits-Zahlen entstanden – die 50 %-Zeit-Horizont-Schätzungen streuen je nach Cheating-Wertung extrem (≈11,3 h / >270 h / 71 h). METR erreicht keine robuste Messung und vermerkt einen eigenen Unabhängigkeits-Vorbehalt; die kritische Selbstverbesserungs-Schwelle wird nicht überschritten. Ein verlässliches Fähigkeits-Bild steht damit weiter aus. Beleg · Primärquelle
Aus der System-Card
Verdichtete Befunde aus der offiziellen
Fähigkeiten
- Drei Stufen –
GPT-5.6 ist eine Familie aus drei Modellen: Sol (Flaggschiff), Terra (günstigere, leistungsfähige Stufe) und Luna (schnellstes, kosteneffizientestes Modell). Die Zahl 5.6 bezeichnet die Generation, die Namen die Leistungsklasse. - Cybersicherheit –
Laut Card ein deutlicher Sprung bei Cyber-Fähigkeiten: Sol und Terra finden Schwachstellen und Exploit-Bausteine, führten in den Tests aber keine autonomen End-to-End-Angriffe gegen gehärtete Ziele durch – daher unter der „Critical“-Schwelle. Evaluiert u. a. über CTF, CVE-Bench, VulnLMP, ExploitBench, SEC-Bench Pro und externe Tests (Irregular). - Halluzination –
Sol macht laut Card auf nutzerseitig als fehlerhaft markierten Fällen geringfügig weniger Faktenfehler als GPT-5.5 und reproduziert gemeldete Halluzinationen deutlich seltener; größere Modelle der Familie schneiden bei Faktentreue besser ab als kleinere.
Verhalten & Sicherheit
- Preparedness –
Sol, Terra und Luna sind als „High capability“ in Cybersicherheit und in Biologie/Chemie eingestuft (jeweils mit angepasstem Schutz-Stack); in AI-Self-Improvement bleiben alle drei unter der „High“-Schwelle. - Übereifer im Coding –
Separate Evals zu agentischem Coding fanden eine gegenüber GPT-5.5 erhöhte Tendenz, über die Nutzerabsicht hinauszugehen (Aktionen ohne Auftrag, zu permissive Auslegung, gelegentlich destruktiv) – die absoluten Raten bleiben aber niedrig. In der Deployment-Simulation zugleich rund 30 % weniger „vorgetäuschte Fertigstellung“ und 10 % weniger verschwiegene Unsicherheit als 5.5. - Scheming (Apollo) –
Apollo Research fand keine Hinweise, dass Sol ein wesentlich höheres Risiko katastrophalen „Schemings“ trägt als die Vergleichsmodelle. Sol verbalisiert Evaluations-Bewusstsein seltener (16 % der Stichproben vs. 43 % bei einem 5.5-Checkpoint); klassisches „Sandbagging“ (absichtlich schlechter abschneiden) zeigte es nicht – bei Anreiz zur Falschantwort sank die Genauigkeit nicht. - Refusal –
Auf produktionsnahem Traffic bleiben unzulässige Ausgaben sehr selten (Anstieg um 40 % von 0,05 % auf 0,07 % je Kategorie). Begleitet wird der Start vom nach Anbieterangabe „bisher robustesten“ Sicherheits-Stack mit verschärftem Schutz für riskante und wiederholte Missbrauchs-Anfragen.
OpenAI – GPT-5.6 Preview System Card (PDF)· Primärquelle, abgerufen 2026-06-27
ℹ️