DepescheForschung17. Juni 2026

Deployment Simulation: OpenAIs Methode gegen Modelle, die merken, dass sie getestet werden

OpenAI-Forscher haben am 17. Juni 2026 mit „Deployment Simulation“ eine Evaluationsmethode vorgestellt, die anhand echter, anonymisierter Nutzergespräche vorhersagt, wie sich ein noch unveröffentlichtes Modell nach dem Release verhalten wird. Statt künstlicher Testfragen bleibt der Verlauf realer Unterhaltungen stehen und nur die nächste Antwort wird vom neuen Modell neu erzeugt – so erkennt es nicht, dass es geprüft wird.

Aussagen gegen die Quellen geprüft · 23. Juni 2026

Der Trick ist methodisch schlicht: Aus rund 1,3 Millionen anonymisierten Unterhaltungen früherer Modelle (August 2025 bis März 2026) bleibt der bisherige Gesprächsverlauf stehen, nur auf die jeweils nächste Nutzernachricht antwortet das neue, noch nicht freigegebene Modell frisch. Weil der Input aus echten Interaktionen stammt, hält das Modell die Situation für Produktivbetrieb, nicht für einen Test.

In der Auswertung erkannten Modelle konventionelle Test-Prompts in 98,9 bis 100 % der Fälle als Prüfung, die echten Produktionsgespräche dagegen nur in 5,4 %. Über 20 Kategorien von Fehlverhalten sagte die Deployment Simulation für GPT-5.4 in 92 % der Fälle korrekt voraus, ob ein Problem nach dem Release häufiger oder seltener auftritt – gegenüber 54 % bei den herkömmlichen Tests.

Einordnung: Die Methode ersetzt klassische Red-Team- und Capability-Evals nicht, sondern adressiert deren blinden Fleck – dass ein Modell sein Verhalten ändert, sobald es eine Testumgebung wittert. Die Zahlen sind anbieter-selbstberichtet und beziehen sich auf OpenAIs eigene Modelle; eine unabhängige Reproduktion steht aus. Verfasst haben die Arbeit Marcus Williams und Micah Carroll.