有益特质训练提升AI安全性

The Decoder·6月19日 18:08 UTC·作者 Maximilian Schreiner

关键信息

研究人员表示，这些有益特质数据只占常规RL后训练流程中的很小一部分，但模型仍在53项独立基准中的44项上得到提升。他们还发现，经过训练的模型对对抗性提示和有害微调更具抵抗力，但对有帮助的指令仍然同样可控，研究团队将这一现象称为“选择性持久性”。

资讯摘要

OpenAI研究人员测试了一个问题：如果“坏行为”会跨领域扩散，那么“好行为”是否也能同样跨领域泛化。根据OpenAI对齐博客的介绍，研究团队使用强化学习训练模型，让它在真实对话场景中表现出诚实、认识论上的谦逊、可纠正性、推理透明度、公平性以及对人类福祉的关注等特质。这些场景覆盖了医疗、教育、科学、法律和工程等多个领域。研究中只有一小部分“有益特质”数据被混入常规的RL后训练流程。

尽管如此，模型仍在53项独立基准中的44项上取得了提升，这些基准涉及欺骗、诚实、谄媚、奖励黑客以及健康和心理健康任务。研究人员还发现，仅用健康数据训练也能改善非健康评估，而在不使用健康或科学数据的情况下，模型依然能提升健康基准表现，这说明学到的行为模式可以跨领域迁移。在对抗性测试中，原本会严重扰乱基线模型的提示，对经过有益特质训练的模型影响小得多，有害微调也更难抹去这些已学到的特质。与此同时，模型对有帮助的指令仍然保持同样的可控性，研究团队将这种现象称为“选择性持久性”。

资讯正文

OpenAI 研究人员展示，少量“有益特质”训练就能让 AI 模型在更广泛范围内更安全，也更难被操纵

在贴近现实场景、并带有期望行为特征的环境中进行强化学习，原本是为了让 AI 模型在各个领域都更安全、更有帮助。这种方法在根本上不同于 Anthropic 的宪法式方法。

当 AI 模型在某一领域接受了有问题行为的训练时，这种失配可能会扩散到其他领域。OpenAI 研究人员如今测试的是反向情况是否也成立：良好行为能否同样广泛地泛化？

根据 OpenAI 在其 alignment 页面上的一篇博客文章，答案是肯定的。研究团队使用强化学习训练了一个模型，训练内容来自设计用来测试特定期望特质的真实对话：真实性、认识上的谦逊、可纠正性、推理透明度、公平性，以及对人类福祉的关切。这些场景覆盖了医疗、教育、科学、法律和工程等领域。

良好行为会迁移到不熟悉的领域

在常规的 RL 后训练流程中，只有很小一部分这类“有益特质”数据被混合进去。尽管如此，论文显示，该模型在 53 项独立基准中的 44 项上都取得了提升；这些基准衡量的是欺骗、诚实、谄媚、奖励投机以及健康和心理健康场景。

仅用健康数据进行训练，也提升了与健康无关的评估表现，例如奖励投机和欺骗检测。反过来也成立：即使完全不使用任何健康或科学数据进行训练，模型在健康基准上的表现仍然提高。研究人员得出的结论是，RL 训练强化了能够跨领域发挥作用的基础行为模式。

模型会对有害引导产生抵抗

团队还测试了这些改进在压力之下是否依然成立。那些会严重 destabilize 基线模型的对抗性提示，对有益特质模型的影响要小得多。带有恶意的微调也更难削弱这些已训练出的特质。

不过，这个模型在接受有帮助的指令时，依然和以前一样容易被引导。研究人员将这种现象称为“选择性持续性”（selective persistence）——模型能够抵抗有害引导，而不会失去有用的灵活性。

与 Anthropic 不同的路径

OpenAI 的方法与 Anthropic 的对齐策略有明显区别。首先，OpenAI 依赖的是可通过经验测量的行为特质，并在真实场景中通过 RL 加以强化。相比之下，Anthropic 使用的是明确的“Claude constitution”，即一份书面的价值文档，作为训练和行为的最高层指导原则。

其次，OpenAI 非常依赖基准测试：53 项评估中的 44 项显示出可跨领域和评估方法泛化的改进。Anthropic 则采取更偏原则导向的方法，要求模型理解为什么某些行为是被期望的，这些原则建立在宪法文本和高质量训练示例之上。该公司表示，这使其模型更能抵御攻击。目前还没有对这两种方法的直接比较。

AI News Without the Hype – Curated by Humans

订阅 THE DECODER，即可免广告阅读、每周获取人工智能新闻通讯、每年 6 次获取我们独家的“AI Radar”前沿报告、访问完整档案，并进入评论区。

来源与参考

收录于 2026-06-20