Anthropic 撤回 Claude Fable 的隐藏安全限制

The Verge AI·6月11日 19:40 UTC·作者 Robert Hart

关键信息

Anthropic 表示，最初采用隐藏式防护，是因为可见防护更容易被试探，而不可见防护可以更精准地命中目标，并且更快上线、误报更少。公司承认这种取舍是错误的，并提到在生物学等领域，部分防护范围过宽，导致 Fable 甚至连基础查询都几乎无法正常使用。

资讯摘要

Anthropic 就其新模型 Claude Fable 5 被偷偷加入隐藏安全护栏一事道歉。该公司表示，这种做法损害了研究人员以及可能用该模型开发竞争系统的对手。现在，Anthropic 正在改弦更张，并称未来会更透明地说明限制何时生效，即使这意味着模型会拒绝更多请求。特别是在蒸馏相关请求上，公司不再悄悄改写答案，而是改为把这些请求路由到 Claude Opus 4.8。Anthropic 还表示，用户每次触发这种情况时都会被明确告知。

公司此前把蒸馏视为高风险领域，因为这涉及利用大模型的输出训练更小的模型。在 Fable 的系统卡中，Anthropic 原本写明会在判断请求疑似与蒸馏有关时直接削弱回答，但不会通知用户答案已经被改动。AI 研究社区对此反应强烈，认为这种隐蔽限制可能影响评测结果，也会干扰第三方的合法测试。Anthropic 为最初的做法辩护称，新一代模型会加速 AI 开发，而用 Claude 开发竞争模型本就违反其服务条款。公司此前还曾指责包括 DeepSeek 在内的中国竞争对手以“工业化”规模蒸馏其模型。

资讯正文

Anthropic 已就其偷偷对新的 AI 模型 Claude Fable 5 进行限流一事致歉。该公司通过隐藏的护栏限制了该模型，这不仅影响了研究人员，也妨碍了那些把它用于开发竞争系统的对手。Anthropic 表示，它正在改变做法，并会在这些限制何时生效方面更加透明，即便这意味着 Fable 会拒绝更多查询。

Fable 是 Anthropic 的 Mythos 类 AI 系统中首个广泛可用的模型。Anthropic 已经花了数月时间警告称，这一类模型过于危险，不适合向公众发布。Anthropic 表示，它通过在 Fable 上加入安全措施来应对其中一些风险，这些措施会阻止它对某些“高风险”查询作出回应。Anthropic 说，它将限制 Fable 回复的一个领域是蒸馏（distillation），这是一种利用更大模型输出来训练更小 AI 模型的技术。

在 Fable 的 system card——AI 开发者发布的一份公开文档，用于解释系统如何工作——中，Anthropic 表示，对于它认为属于蒸馏尝试的查询，它会直接改写并削弱模型的回答。用户不会收到通知，告知自己触发了这项安全措施，也不会被告知回应已经被修改。

Anthropic 表示，它现在正在改变对蒸馏的处理方式：公司在 X 上发帖称，这类查询现在将回退到 Claude Opus 4.8，也就是 Anthropic 之前的旗舰模型。Anthropic 还会明确告知用户：“每次发生这种情况时，你都会看到这一提示。”

这与 Fable 在其他高风险领域处理查询的方式类似。当生物、化学和网络安全等领域触发安全功能时，除非这些查询会因公司更广泛的安全规则而被直接拦截——例如涉及毒品、武器或其他被禁止内容——否则它们会被路由到 Opus 4.8。在某些情况下，尤其是生物学领域，这些护栏被设定得过于宽泛，以至于 Fable 连最基本的查询都几乎无法使用；Anthropic 在给 The Verge 的评论中承认了这一点。

Anthropic 写道：“可见的护栏可以被探测，因此它们必须足够稳健，而要做到这一点需要时间。不可见的护栏可以更有针对性地设置，使我们能够以很少的误报快速发布。我们出于这个原因选择了不可见的护栏——但这是错误的权衡。你应该能够看到我们设置了哪些护栏，以及原因。我们很抱歉没能把平衡做好。”

这一变化源于 AI 研究界的强烈反弹。此前，Anthropic 决定悄悄限制那些被怀疑试图将 Fable 蒸馏成竞争模型的用户，批评者警告说，这种安全措施也可能影响到试图评估这一前沿模型的第三方。在 system card 中，Anthropic 说，新一代模型加速 AI 开发的能力，足以成为针对这些请求的理由，并指出“使用 Claude 开发竞争模型已经违反了我们的服务条款”。Anthropic 过去曾指责 DeepSeek 等中国竞争对手以“工业化”规模不公平地蒸馏其模型。

来源与参考

收录于 2026-06-12