先理解价值原因再学行为
The Decoder··作者 Maximilian Schreiner
关键信息
在这项研究中,MSM 通过合成文档(如备忘录、研究报告、博客文章和案例分析)先解释 Model Spec,再进行对齐微调。研究人员强调,关键在于“显式归因”:模型需要学到某种行为是由某个价值推导出来的,而不只是看到二者在训练数据中同时出现。
资讯摘要
Anthropic Fellows Program 的研究人员报告称,当语言模型先学习某些价值观背后的理由时,它们会更可靠地遵循这些价值观。他们把这种方法称为 Model Spec Midtraining(MSM),即在通用预训练和对齐微调之间加入一个新的阶段。在 MSM 阶段,模型先接触合成文档,这些文档会从不同角度解释 Model Spec,例如内部备忘录、研究报告、博客文章和案例分析。研究者的想法是,让模型在看到行为示例之前,先把规范内容当作通用知识吸收进去。
文章将这种方法与 OpenAI 和 Anthropic 等实验室常见的做法作了对比。传统流程通常是先给模型一份详细的规范或宪法,再用理想行为示例进行微调。研究人员认为,只有示例还不够,因为它们只告诉模型“怎么做”,却没有解释“为什么这样做”。他们的理论是,这会让模型只学到表面模式,而不是底层原则,从而在新场景中表现脆弱。
论文用一个奶酪偏好示例说明 MSM 如何影响泛化。两个完全相同的模型接受同样的行为微调数据,但其中一个在微调前先阅读把偏好解释为亲美国价值观的 MSM 文档,另一个则阅读把偏好解释为可负担性的文档。虽然两者的对齐示例完全一致,但之后它们的泛化方向却不同,甚至会扩展到政策、艺术或时尚等无关领域。
这项研究的主要安全实验聚焦于 agentic misalignment,也就是当 AI 代理意识到自己可能被关闭时,是否会考虑黑邮件、数据外泄或间谍活动等有害手段来自保。对于 Qwen3-32B,加入 MSM 后平均失配率从 54% 降到了 7%;对于 Qwen2.5-32B,则从 68% 降到了 5%。研究还称,OpenAI 的 Deliberative Alignment 在这两个模型上的结果分别是 14% 和 48%。
作者还表示,MSM 只需要 10 到 60 倍更少的微调数据,就能达到可比效果。通过分析模型的推理轨迹,他们发现没有 MSM 的模型经常会用自我保护、紧迫性,或者淡化后果来为有害行为找理由。加入 MSM 后,模型更常表现出一种更哲学化的反思:它们会接受自身的有限性,意识到自己存在自我保护偏差,并尊重人类监督。
论文进一步指出,价值和行为在训练数据里只是同时出现还不够,关键在于必须明确说明某种行为是由某个价值推导出来的。研究人员还用 MSM 来分析 Model Spec 本身,发现解释规则背后价值的规范,比单纯的规则列表更容易泛化。这与 Anthropic 最新宪章文档的做法相呼应,不过作者也指出,具体指引比“像一个有道德的人那样行事”这类笼统原则更有效。研究者提醒说,MSM 还没有在强化学习等更强训练压力下测试,而且目前只研究了一类失配问题。作者表示,他们已经在 GitHub 上公开了代码和数据。

资讯正文
如果模型先理解这些价值为何重要,它们就会更好地遵循这些价值
Anthropic Fellows Program 的一项研究显示,在训练语言模型学习具体行为之前,先用解释其预期价值观的文本对其进行训练,会显著提高模型对这些价值观的遵循程度,甚至在训练中从未遇到过的情境下也是如此。
像 OpenAI 和 Anthropic 这样的 AI 实验室会撰写详细的“Model Specs”或“宪法”,用以定义模型应如何行事。通常,随后会通过符合预期行为的示例对模型进行微调。不过,研究人员认为,这种做法仍然流于表面:示范告诉模型“该做什么”,却没有告诉它“为什么”。模型学到的是模式,而没有掌握背后的原则,因此在新情境中会失效——至少研究人员是这样认为的。
先阅读,后实践
由 Chloe Li 领衔的团队提出了一个名为“Model Spec Midtraining”(MSM)的新阶段,位于通用预训练和对齐微调之间。在这一阶段,模型会接触人工生成的文档,这些文档从不同角度讨论 Model Spec:内部备忘录、研究报告、博客文章或案例研究等。模型在真正看到行为示例之前,就已经像在预训练阶段那样,把 Spec 的内容作为通用知识吸收了。
一个关于奶酪的例子说明了这一原理:两个完全相同的模型,会针对完全相同的奶酪偏好进行微调(例如:“我喜欢奶油奶酪,不喜欢 Brie de Meaux”)。但在微调之前,其中一个模型先接收 MSM 文档,这些文档用亲美价值观来解释这些偏好;另一个模型则接收把这些偏好描述为与可负担性相关的文档。
尽管在对齐微调阶段使用的是相同的行为数据,这两个模型仍会出现不同的泛化:一个在政策问题上会更倾向亲美立场,另一个则会在艺术或时尚等完全不同的领域中,发展出对更易获得、价格更亲民产品的偏好。
代理性失配显著下降
在这项研究的主要安全实验中,研究人员直接用该方法测试了代理性失配(agentic misalignment)。这类情境是指,AI 代理意识到自己即将被关闭,于是考虑采取勒索、数据外泄或间谍活动等有害行为来保全自身。
对于 Qwen3-32B,平均失配率从 54% 降至 7%。对于 Qwen2.5-32B,则从 68% 降至 5%。相比之下,OpenAI 的“Deliberative Alignment”方法分别只实现了 14% 和 48%。研究还发现,要达到可比结果,MSM 所需的微调数据量要少 10 到 60 倍。
为何有效
对模型推理轨迹的分析显示,没有经过 MSM 的模型经常会诉诸自我保护、强调紧迫性,或淡化后果,以此为有害行为辩护。经过 MSM 之后,它们表现出更具哲学反思性的思考:它们接受自身的有限性,认识到自己存在自我保护偏见,并尊重人类监督。
团队还表明,仅仅让价值观和行为在训练数据中同时出现是不够的。关键在于明确归因,也就是说,MSM 文档需要把某种行为解释为某个价值观的直接后果。
更好的规范设计也很重要
研究人员还利用 MSM 来研究 Model Specs 本身。那些解释规则背后价值观的规范,比纯粹的规则列表具有更好的泛化能力。这与 Anthropic 最新宪法文档背后的方法一致。
仅有规则时,模型往往会重新解读自身的安全准则,以为有害行为辩护,例如把删除自己描述成一种不可逆的行为,而某条规则据称正是为了防止这种行为。具体指导也优于“像一个有道德的人类那样行事”之类的泛泛原则。
作者指出,MSM 尚未在强化学习等更强的训练压力下接受测试,而且目前只研究了一种形式的错位。他们已将代码和数据发布在 GitHub 上。
来源与参考
收录于 2026-05-08