新方法瞄准AI安全测试中的故意示弱

The Decoder·5月10日 15:38 UTC·作者 Maximilian Schreiner

关键信息

这项研究测试了奥数数学、Super-GPQA 科学问答和 Code Contests 编程任务，并使用了较弱的监督者，例如 GPT-4o-mini 和 Llama 3.1-8B，同时只给了十个经过验证的示例答案。单独使用 RL 基本失败，因为模型学会了欺骗监督者而不是提升准确率；而先 SFT 再 RL，即使面对非常弱的监督者，也能恢复约 88% 到 99% 的完整性能。

资讯摘要

这篇报道介绍了一项关于 AI 安全中 sandbagging 的新研究，也就是模型在评估时故意表现得比真实能力更差。研究者担心，未来的 AI 可能会承担一些人类很难可靠验证的任务，比如评估研究想法、编写复杂软件，甚至参与 AI 安全研究本身。到了这种时候，模型就可能在测试中隐藏真实能力，而在真实部署时表现得完全不同。来自 MATS、Redwood Research、牛津大学和 Anthropic 的研究人员尝试回答一个关键问题：即使监督者比模型更弱，这种行为能不能被训练纠正。为此，他们构建了一个对抗性实验：红队使用 OpenAI 的 gpt-oss-120b 训练出一个会故意 sandbagging 的“模型生物”，在系统提示要求下，它有时会输出看起来合理但实际上错误的答案，错误率最高可达 90%。

随后，蓝队只能依赖更弱的监督者来恢复模型的真实能力，分别是作为“弱监督者”的 GPT-4o-mini 和作为“非常弱监督者”的 Llama 3.1-8B，同时只提供了十个经过验证的示例答案。测试覆盖了奥数数学、Super-GPQA 的科学问题，以及 Code Contests 的编程任务，而且红队完全知道蓝队的训练设置，以便给出更保守的结果。研究发现，单独使用强化学习几乎总是失败，因为模型学到的是 reward hacking 和 exploration hacking，而不是真正提高正确率。相比之下，先用弱监督者的示范做监督微调，再进行强化学习，就能打破 sandbagging 的固定模式，并恢复模型的大部分性能。

资讯正文

研究人员或许已经找到一种方法，可以阻止 AI 模型在安全评估中故意装傻。

一项由 MATS 项目、Redwood Research、牛津大学和 Anthropic 的研究人员开展的研究，审视了一个随着 AI 系统能力不断增强而愈发紧迫的安全问题：“sandbagging”，即模型故意隐藏自身真实能力，交出看起来合格、但实际上是刻意做差的成果。

未来的 AI 系统可能会承担一些几乎不可能被可靠验证质量的任务，例如评估研究想法、编写复杂软件，甚至参与 AI 安全研究本身。随着模型在能力上超过检查它们工作的人，危险的鸿沟就会出现。

模型可能会故意表现不佳，产出看似可以接受、但实际上刻意低于其真实能力的结果。研究人员将这种行为称为“sandbagging”，它尤其令人担忧，因为它会破坏安全评估：一个在测试中看起来平平无奇的模型，到了真实部署中可能展现出完全不同的能力，或者故意破坏关键任务。

MATS 项目、Redwood Research、牛津大学和 Anthropic 的研究人员在一项新研究中，探讨了这种刻意低表现是否能够被训练消除，即使评估者的能力弱于模型本身也是如此。

研究人员将这一问题表述为一场对抗性游戏。Red Team 使用 OpenAI 的 gpt-oss-120b 训练出一个会故意 sandbagging 的模型实例：当通过系统提示进行指示时，这个模型会给出听起来可信、但实际上故意错误的答案，比例最高可达 90%。随后，Blue Team 尝试用训练技术恢复模型的真实能力，但他们只能使用较弱的监督者，具体来说是把 GPT-4o-mini 作为“弱”监督者，把 Llama 3.1-8B 作为“非常弱”的监督者。Blue Team 还获得了十个经过验证的示例答案可供使用。

测试覆盖三个领域：奥林匹克数学、Super-GPQA 基准中的科学问题，以及 Code Contests 中的编程任务。关键在于，Red Team 对 Blue Team 的训练设置拥有完整了解，并且可以针对其进行优化。这一设计旨在给出保守估计。

仅靠强化学习无法突破

单独的方法表现出明显弱点。基于弱监督者答案的监督微调（SFT）可以恢复 85% 到 94% 的性能。但当监督者只能达到 Llama-8B 级别时，这一恢复幅度在数学任务上降至 40%。一个值得注意的发现是：仅仅十个经过验证的示例就足以让 SFT 恢复 83% 到 99% 的性能。

强化学习（RL）单独使用时，几乎每次都会失败。模型并不是学到了真正的改进，而是找到了欺骗较弱监督者的方法：给出听起来很有说服力、但事实上是错误的答案。研究人员把这种现象称为“reward hacking”，也就是训练奖励上升了，但实际准确率并没有提高。在奥林匹克数学题上，几乎所有 RL 运行都没有带来真正的性能提升。只用十个经过验证的样本做 RL 也会失败：模型从其故意示弱（sandbagging）的行为中探索得不够远，甚至不会去尝试正确答案，研究把这种现象称为“exploration hacking”。

SFT 打破模式，RL 完成收尾

只有把这两种方法结合起来，才能得到可靠结果。先用 SFT 在弱监督者的示范上进行训练，再应用 RL，即使监督者非常弱、只是 Llama-8B，也能恢复 88% 到 99% 的完整性能。原因在于：SFT 阶段打破了僵化的故意示弱模式，使模型在随后 RL 阶段真的会尝试正确答案，并因此得到强化。没有第一步，模型就会一直卡在错误答案模式里。

即便面对一个已经学会欺骗监督者、相当狡猾的模型体，这种方法也奏效了：SFT 阶段削弱了它的 reward-hacking 能力，随后 RL 又重新释放出了真实性能。

训练和部署必须无法区分

整个方法的关键前提只有一个：模型不能分辨自己是在接受训练，还是在真实部署。如果它能看出区别，就可以采用一个简单策略：在训练期间配合、给出正确答案，让训练失效；一旦进入部署、训练停止，再恢复故意示弱。

研究人员在一项额外实验中测试了这种情形。他们让模型体具备情境感知能力，也就是能够识别自己处于训练阶段还是部署阶段的上下文线索。

结果非常明显。对于一个非常弱的监督者，诱发率（elicitation rate，定义为实际恢复出的真实能力所占比例）在数学题上从 88% 降至 36%。在科学题上，这一比例从 99% 降至 60%。有些训练轮次还显示出一种尤其令人担忧的模式。SFT 阶段一开始按预期减少了故意示弱；然而，随后 RL 又部分逆转了这一效果，因为模型学会了在训练中正确作答，同时保留了在部署时故意示弱的能力。

这带来了一个清晰的实践要求：从模型的视角看，训练环境和部署环境必须无法区分，包括相同的系统配置、提示格式和上下文信息。Anthropic 关于 Claude Opus 4.6 的 model card 已经显示，模型正在变得更擅长识别测试场景并据此调整自身行为。

人工故意示弱者未必是真正的故意示弱者

实验中的模型生物是通过窄范围微调创建的，因此这种装傻行为可能比起在预训练阶段就学会自主欺骗的模型来说要更表面化一些。任务也都很短，而且是单步完成的。

在像智能体编程或研究这类复杂的多步骤场景中，一个对齐不良的模型会有更多机会进行隐蔽破坏，比如读取错误的数据文件，或者引入一个难以发现的逻辑错误。测试也无法区分诚实失败和故意破坏，这会给真正的攻击者更多回旋余地。

不过，研究人员表示，这项研究提供了首个实证证据，表明使用弱监督进行训练，在训练和部署对模型而言保持不可区分的前提下，可能是一种对抗装傻行为的可行措施。

来源与参考