OpenAI hat im Alignment-Research-Blog einen Beitrag zu „Beneficial RL“ veröffentlicht. Der Ansatz trainiert Modelle per Reinforcement Learning auf realistische Szenarien aus Bereichen wie Gesundheit, Bildung, Wissenschaft, Recht und Ingenieurwesen, die wünschenswerte Verhaltensmerkmale belohnen – genannt werden „truthfulness, epistemic humility, metacognitive transparency, corrigibility, risk sensitivity, universal fairness, and concern for human welfare“.
Als Kernbefund berichten die Autoren Verbesserungen auf „44 out of 53 internal and external benchmarks“ – unter anderem bei Täuschungserkennung und Ehrlichkeit. Bemerkenswert ist der berichtete Transfer-Effekt: Ein Training ausschließlich auf Gesundheitsgespräche habe die Ausrichtung auch in nicht-gesundheitlichen Domänen verbessert; umgekehrt sei dies ebenso beobachtet worden. Das deutet darauf hin, dass die antrainierten Eigenschaften nicht fachgebunden bleiben, sondern allgemeiner greifen.
Die Zahlen stammen aus OpenAIs eigener Auswertung und sind unabhängig noch nicht reproduziert; die Verhaltenskriterien sind vom Anbieter definiert. Der Beitrag ist damit als methodisch unterlegter, aber anbieter-selbstberichteter Forschungsbefund einzuordnen. Primärquelle ist der Alignment-Blogpost samt verlinktem Paper.