DepescheForschung18. Juni 2026

OpenAI: „Beneficial RL“ soll erwünschtes Verhalten domänenübergreifend verstärken

OpenAI-Forscher berichten in einem Alignment-Beitrag über „Beneficial RL“: Reinforcement Learning auf realistische Szenarien, das allgemeine Verhaltensmerkmale wie Wahrhaftigkeit und Korrigierbarkeit verstärken soll. Laut der (anbieter-selbstberichteten) Auswertung verbesserten sich 44 von 53 internen und externen Benchmarks; ein Training nur auf Gesundheitsgespräche verbesserte die Ausrichtung auch in fachfremden Bereichen.

Aussagen gegen die Quellen geprüft · 22. Juni 2026

OpenAI hat im Alignment-Research-Blog einen Beitrag zu „Beneficial RL“ veröffentlicht. Der Ansatz trainiert Modelle per Reinforcement Learning auf realistische Szenarien aus Bereichen wie Gesundheit, Bildung, Wissenschaft, Recht und Ingenieurwesen, die wünschenswerte Verhaltensmerkmale belohnen – genannt werden „truthfulness, epistemic humility, metacognitive transparency, corrigibility, risk sensitivity, universal fairness, and concern for human welfare“.

Als Kernbefund berichten die Autoren Verbesserungen auf „44 out of 53 internal and external benchmarks“ – unter anderem bei Täuschungserkennung und Ehrlichkeit. Bemerkenswert ist der berichtete Transfer-Effekt: Ein Training ausschließlich auf Gesundheitsgespräche habe die Ausrichtung auch in nicht-gesundheitlichen Domänen verbessert; umgekehrt sei dies ebenso beobachtet worden. Das deutet darauf hin, dass die antrainierten Eigenschaften nicht fachgebunden bleiben, sondern allgemeiner greifen.

Die Zahlen stammen aus OpenAIs eigener Auswertung und sind unabhängig noch nicht reproduziert; die Verhaltenskriterien sind vom Anbieter definiert. Der Beitrag ist damit als methodisch unterlegter, aber anbieter-selbstberichteter Forschungsbefund einzuordnen. Primärquelle ist der Alignment-Blogpost samt verlinktem Paper.