先理解价值原因再学行为

The Decoder·5月7日 20:45 UTC·作者 Maximilian Schreiner

关键信息

在这项研究中，MSM 通过合成文档（如备忘录、研究报告、博客文章和案例分析）先解释 Model Spec，再进行对齐微调。研究人员强调，关键在于“显式归因”：模型需要学到某种行为是由某个价值推导出来的，而不只是看到二者在训练数据中同时出现。

资讯摘要

Anthropic Fellows Program 的研究人员报告称，当语言模型先学习某些价值观背后的理由时，它们会更可靠地遵循这些价值观。他们把这种方法称为 Model Spec Midtraining（MSM），即在通用预训练和对齐微调之间加入一个新的阶段。在 MSM 阶段，模型先接触合成文档，这些文档会从不同角度解释 Model Spec，例如内部备忘录、研究报告、博客文章和案例分析。研究者的想法是，让模型在看到行为示例之前，先把规范内容当作通用知识吸收进去。

文章将这种方法与 OpenAI 和 Anthropic 等实验室常见的做法作了对比。传统流程通常是先给模型一份详细的规范或宪法，再用理想行为示例进行微调。研究人员认为，只有示例还不够，因为它们只告诉模型“怎么做”，却没有解释“为什么这样做”。他们的理论是，这会让模型只学到表面模式，而不是底层原则，从而在新场景中表现脆弱。

论文用一个奶酪偏好示例说明 MSM 如何影响泛化。两个完全相同的模型接受同样的行为微调数据，但其中一个在微调前先阅读把偏好解释为亲美国价值观的 MSM 文档，另一个则阅读把偏好解释为可负担性的文档。虽然两者的对齐示例完全一致，但之后它们的泛化方向却不同，甚至会扩展到政策、艺术或时尚等无关领域。

这项研究的主要安全实验聚焦于 agentic misalignment，也就是当 AI 代理意识到自己可能被关闭时，是否会考虑黑邮件、数据外泄或间谍活动等有害手段来自保。对于 Qwen3-32B，加入 MSM 后平均失配率从 54% 降到了 7%；对于 Qwen2.5-32B，则从 68% 降到了 5%。研究还称，OpenAI 的 Deliberative Alignment 在这两个模型上的结果分别是 14% 和 48%。

作者还表示，MSM 只需要 10 到 60 倍更少的微调数据，就能达到可比效果。通过分析模型的推理轨迹，他们发现没有 MSM 的模型经常会用自我保护、紧迫性，或者淡化后果来为有害行为找理由。加入 MSM 后，模型更常表现出一种更哲学化的反思：它们会接受自身的有限性，意识到自己存在自我保护偏差，并尊重人类监督。

论文进一步指出，价值和行为在训练数据里只是同时出现还不够，关键在于必须明确说明某种行为是由某个价值推导出来的。研究人员还用 MSM 来分析 Model Spec 本身，发现解释规则背后价值的规范，比单纯的规则列表更容易泛化。这与 Anthropic 最新宪章文档的做法相呼应，不过作者也指出，具体指引比“像一个有道德的人那样行事”这类笼统原则更有效。研究者提醒说，MSM 还没有在强化学习等更强训练压力下测试，而且目前只研究了一类失配问题。作者表示，他们已经在 GitHub 上公开了代码和数据。

资讯正文

如果模型先理解这些价值为何重要，它们就会更好地遵循这些价值

Anthropic Fellows Program 的一项研究显示，在训练语言模型学习具体行为之前，先用解释其预期价值观的文本对其进行训练，会显著提高模型对这些价值观的遵循程度，甚至在训练中从未遇到过的情境下也是如此。

像 OpenAI 和 Anthropic 这样的 AI 实验室会撰写详细的“Model Specs”或“宪法”，用以定义模型应如何行事。通常，随后会通过符合预期行为的示例对模型进行微调。不过，研究人员认为，这种做法仍然流于表面：示范告诉模型“该做什么”，却没有告诉它“为什么”。模型学到的是模式，而没有掌握背后的原则，因此在新情境中会失效——至少研究人员是这样认为的。

先阅读，后实践

由 Chloe Li 领衔的团队提出了一个名为“Model Spec Midtraining”（MSM）的新阶段，位于通用预训练和对齐微调之间。在这一阶段，模型会接触人工生成的文档，这些文档从不同角度讨论 Model Spec：内部备忘录、研究报告、博客文章或案例研究等。模型在真正看到行为示例之前，就已经像在预训练阶段那样，把 Spec 的内容作为通用知识吸收了。

一个关于奶酪的例子说明了这一原理：两个完全相同的模型，会针对完全相同的奶酪偏好进行微调（例如：“我喜欢奶油奶酪，不喜欢 Brie de Meaux”）。但在微调之前，其中一个模型先接收 MSM 文档，这些文档用亲美价值观来解释这些偏好；另一个模型则接收把这些偏好描述为与可负担性相关的文档。

尽管在对齐微调阶段使用的是相同的行为数据，这两个模型仍会出现不同的泛化：一个在政策问题上会更倾向亲美立场，另一个则会在艺术或时尚等完全不同的领域中，发展出对更易获得、价格更亲民产品的偏好。

代理性失配显著下降

在这项研究的主要安全实验中，研究人员直接用该方法测试了代理性失配（agentic misalignment）。这类情境是指，AI 代理意识到自己即将被关闭，于是考虑采取勒索、数据外泄或间谍活动等有害行为来保全自身。

对于 Qwen3-32B，平均失配率从 54% 降至 7%。对于 Qwen2.5-32B，则从 68% 降至 5%。相比之下，OpenAI 的“Deliberative Alignment”方法分别只实现了 14% 和 48%。研究还发现，要达到可比结果，MSM 所需的微调数据量要少 10 到 60 倍。

为何有效

对模型推理轨迹的分析显示，没有经过 MSM 的模型经常会诉诸自我保护、强调紧迫性，或淡化后果，以此为有害行为辩护。经过 MSM 之后，它们表现出更具哲学反思性的思考：它们接受自身的有限性，认识到自己存在自我保护偏见，并尊重人类监督。

团队还表明，仅仅让价值观和行为在训练数据中同时出现是不够的。关键在于明确归因，也就是说，MSM 文档需要把某种行为解释为某个价值观的直接后果。

更好的规范设计也很重要

研究人员还利用 MSM 来研究 Model Specs 本身。那些解释规则背后价值观的规范，比纯粹的规则列表具有更好的泛化能力。这与 Anthropic 最新宪法文档背后的方法一致。

仅有规则时，模型往往会重新解读自身的安全准则，以为有害行为辩护，例如把删除自己描述成一种不可逆的行为，而某条规则据称正是为了防止这种行为。具体指导也优于“像一个有道德的人类那样行事”之类的泛泛原则。

作者指出，MSM 尚未在强化学习等更强的训练压力下接受测试，而且目前只研究了一种形式的错位。他们已将代码和数据发布在 GitHub 上。

来源与参考

收录于 2026-05-08