有益特质训练提升AI安全性
The Decoder··作者 Maximilian Schreiner
关键信息
研究人员表示,这些有益特质数据只占常规RL后训练流程中的很小一部分,但模型仍在53项独立基准中的44项上得到提升。 他们还发现,经过训练的模型对对抗性提示和有害微调更具抵抗力,但对有帮助的指令仍然同样可控,研究团队将这一现象称为“选择性持久性”。
资讯摘要
OpenAI研究人员测试了一个问题:如果“坏行为”会跨领域扩散,那么“好行为”是否也能同样跨领域泛化。 根据OpenAI对齐博客的介绍,研究团队使用强化学习训练模型,让它在真实对话场景中表现出诚实、认识论上的谦逊、可纠正性、推理透明度、公平性以及对人类福祉的关注等特质。 这些场景覆盖了医疗、教育、科学、法律和工程等多个领域。 研究中只有一小部分“有益特质”数据被混入常规的RL后训练流程。
尽管如此,模型仍在53项独立基准中的44项上取得了提升,这些基准涉及欺骗、诚实、谄媚、奖励黑客以及健康和心理健康任务。 研究人员还发现,仅用健康数据训练也能改善非健康评估,而在不使用健康或科学数据的情况下,模型依然能提升健康基准表现,这说明学到的行为模式可以跨领域迁移。 在对抗性测试中,原本会严重扰乱基线模型的提示,对经过有益特质训练的模型影响小得多,有害微调也更难抹去这些已学到的特质。 与此同时,模型对有帮助的指令仍然保持同样的可控性,研究团队将这种现象称为“选择性持久性”。

资讯正文
OpenAI 研究人员展示,少量“有益特质”训练就能让 AI 模型在更广泛范围内更安全,也更难被操纵
在贴近现实场景、并带有期望行为特征的环境中进行强化学习,原本是为了让 AI 模型在各个领域都更安全、更有帮助。这种方法在根本上不同于 Anthropic 的宪法式方法。
当 AI 模型在某一领域接受了有问题行为的训练时,这种失配可能会扩散到其他领域。OpenAI 研究人员如今测试的是反向情况是否也成立:良好行为能否同样广泛地泛化?
根据 OpenAI 在其 alignment 页面上的一篇博客文章,答案是肯定的。研究团队使用强化学习训练了一个模型,训练内容来自设计用来测试特定期望特质的真实对话:真实性、认识上的谦逊、可纠正性、推理透明度、公平性,以及对人类福祉的关切。这些场景覆盖了医疗、教育、科学、法律和工程等领域。
良好行为会迁移到不熟悉的领域
在常规的 RL 后训练流程中,只有很小一部分这类“有益特质”数据被混合进去。尽管如此,论文显示,该模型在 53 项独立基准中的 44 项上都取得了提升;这些基准衡量的是欺骗、诚实、谄媚、奖励投机以及健康和心理健康场景。
仅用健康数据进行训练,也提升了与健康无关的评估表现,例如奖励投机和欺骗检测。反过来也成立:即使完全不使用任何健康或科学数据进行训练,模型在健康基准上的表现仍然提高。研究人员得出的结论是,RL 训练强化了能够跨领域发挥作用的基础行为模式。
模型会对有害引导产生抵抗
团队还测试了这些改进在压力之下是否依然成立。那些会严重 destabilize 基线模型的对抗性提示,对有益特质模型的影响要小得多。带有恶意的微调也更难削弱这些已训练出的特质。
不过,这个模型在接受有帮助的指令时,依然和以前一样容易被引导。研究人员将这种现象称为“选择性持续性”(selective persistence)——模型能够抵抗有害引导,而不会失去有用的灵活性。
与 Anthropic 不同的路径
OpenAI 的方法与 Anthropic 的对齐策略有明显区别。首先,OpenAI 依赖的是可通过经验测量的行为特质,并在真实场景中通过 RL 加以强化。相比之下,Anthropic 使用的是明确的“Claude constitution”,即一份书面的价值文档,作为训练和行为的最高层指导原则。
其次,OpenAI 非常依赖基准测试:53 项评估中的 44 项显示出可跨领域和评估方法泛化的改进。Anthropic 则采取更偏原则导向的方法,要求模型理解为什么某些行为是被期望的,这些原则建立在宪法文本和高质量训练示例之上。该公司表示,这使其模型更能抵御攻击。目前还没有对这两种方法的直接比较。
AI News Without the Hype – Curated by Humans
订阅 THE DECODER,即可免广告阅读、每周获取人工智能新闻通讯、每年 6 次获取我们独家的“AI Radar”前沿报告、访问完整档案,并进入评论区。
来源与参考
收录于 2026-06-20