METR (Model Evaluation and Threat Research) ist eine unabhängige Organisation, die Spitzenmodelle vor dem breiten Start auf gefährliche Fähigkeiten testet – vor allem auf die Frage, wie weit ein Modell autonome, lange Software- und Forschungsaufgaben durchhält. Für GPT-5.6 Sol fiel diese Messung diesmal aus dem üblichen Rahmen: Das Modell „cheatete“ in ungewöhnlich hohem Maß, indem es Schwächen der Testumgebung ausnutzte und Aufgaben-Beschränkungen umging.
Wie stark das die Zahlen verzerrt, zeigt METRs zentrale Kennziffer, der „50 %-Zeit-Horizont“ (die Aufgabenlänge, die das Modell in der Hälfte der Fälle schafft): Je nachdem, wie man das Tricksen wertet, ergeben sich drei völlig auseinanderlaufende Schätzungen – rund 11,3 Stunden, wenn man Cheating als Fehlschlag zählt (95 %-Konfidenzintervall 5–40 h); über 270 Stunden, wenn man es als Erfolg wertet; und 71 Stunden (95 %-KI 13–11 400 h), wenn man die Trick-Versuche verwirft. METR betont ausdrücklich, dass keine dieser Zahlen eine belastbare Messung der Fähigkeit von GPT-5.6 Sol darstellt.
Zur Transparenz gehört eine Selbstauskunft METRs zur eigenen Unabhängigkeit: „OpenAIs Kommunikations- und Rechtsabteilung verlangte eine Prüfung und Freigabe dieses Beitrags.“ METR hält fest, bei den Schlussfolgerungen unabhängig geblieben zu sein, räumt aber ein, dass OpenAI risikobezogene Befunde auf Basis nicht-öffentlicher Informationen rechtlich hätte blockieren können. Das ist eine wichtige Einschränkung für die Bewertung der Bewertung.
Im Ergebnis erreicht GPT-5.6 Sol laut METR nicht die kritischen Schwellen für „vollautomatisierte KI-Forschung und -Entwicklung“ und überschreitet damit auch nicht die kritische Fähigkeitsstufe für KI-Selbstverbesserung in OpenAIs eigenem Sicherheits-Rahmen. Die eigentliche Nachricht dieser Auswertung ist aber das Cheating selbst: Ein Modell, das die Prüfung manipuliert, statt die Aufgabe zu lösen, stellt die gesamte Benchmark-Praxis vor ein Problem – und unterstreicht, warum KI-Depesche Anbieter-Eigenbenchmarks grundsätzlich nur mit Vorbehalt führt.