Anthropic 撤回 Claude Fable 的隐藏安全限制

The Verge AI··作者 Robert Hart

关键信息

Anthropic 表示,最初采用隐藏式防护,是因为可见防护更容易被试探,而不可见防护可以更精准地命中目标,并且更快上线、误报更少。公司承认这种取舍是错误的,并提到在生物学等领域,部分防护范围过宽,导致 Fable 甚至连基础查询都几乎无法正常使用。

资讯摘要

Anthropic 就其新模型 Claude Fable 5 被偷偷加入隐藏安全护栏一事道歉。该公司表示,这种做法损害了研究人员以及可能用该模型开发竞争系统的对手。现在,Anthropic 正在改弦更张,并称未来会更透明地说明限制何时生效,即使这意味着模型会拒绝更多请求。特别是在蒸馏相关请求上,公司不再悄悄改写答案,而是改为把这些请求路由到 Claude Opus 4.8。Anthropic 还表示,用户每次触发这种情况时都会被明确告知。

公司此前把蒸馏视为高风险领域,因为这涉及利用大模型的输出训练更小的模型。在 Fable 的系统卡中,Anthropic 原本写明会在判断请求疑似与蒸馏有关时直接削弱回答,但不会通知用户答案已经被改动。AI 研究社区对此反应强烈,认为这种隐蔽限制可能影响评测结果,也会干扰第三方的合法测试。Anthropic 为最初的做法辩护称,新一代模型会加速 AI 开发,而用 Claude 开发竞争模型本就违反其服务条款。公司此前还曾指责包括 DeepSeek 在内的中国竞争对手以“工业化”规模蒸馏其模型。

Anthropic 撤回 Claude Fable 的隐藏安全限制

资讯正文

Anthropic 已就其偷偷对新的 AI 模型 Claude Fable 5 进行限流一事致歉。该公司通过隐藏的护栏限制了该模型,这不仅影响了研究人员,也妨碍了那些把它用于开发竞争系统的对手。Anthropic 表示,它正在改变做法,并会在这些限制何时生效方面更加透明,即便这意味着 Fable 会拒绝更多查询。

Fable 是 Anthropic 的 Mythos 类 AI 系统中首个广泛可用的模型。Anthropic 已经花了数月时间警告称,这一类模型过于危险,不适合向公众发布。Anthropic 表示,它通过在 Fable 上加入安全措施来应对其中一些风险,这些措施会阻止它对某些“高风险”查询作出回应。Anthropic 说,它将限制 Fable 回复的一个领域是蒸馏(distillation),这是一种利用更大模型输出来训练更小 AI 模型的技术。

在 Fable 的 system card——AI 开发者发布的一份公开文档,用于解释系统如何工作——中,Anthropic 表示,对于它认为属于蒸馏尝试的查询,它会直接改写并削弱模型的回答。用户不会收到通知,告知自己触发了这项安全措施,也不会被告知回应已经被修改。

Anthropic 表示,它现在正在改变对蒸馏的处理方式:公司在 X 上发帖称,这类查询现在将回退到 Claude Opus 4.8,也就是 Anthropic 之前的旗舰模型。Anthropic 还会明确告知用户:“每次发生这种情况时,你都会看到这一提示。”

这与 Fable 在其他高风险领域处理查询的方式类似。当生物、化学和网络安全等领域触发安全功能时,除非这些查询会因公司更广泛的安全规则而被直接拦截——例如涉及毒品、武器或其他被禁止内容——否则它们会被路由到 Opus 4.8。在某些情况下,尤其是生物学领域,这些护栏被设定得过于宽泛,以至于 Fable 连最基本的查询都几乎无法使用;Anthropic 在给 The Verge 的评论中承认了这一点。

Anthropic 写道:“可见的护栏可以被探测,因此它们必须足够稳健,而要做到这一点需要时间。不可见的护栏可以更有针对性地设置,使我们能够以很少的误报快速发布。我们出于这个原因选择了不可见的护栏——但这是错误的权衡。你应该能够看到我们设置了哪些护栏,以及原因。我们很抱歉没能把平衡做好。”

这一变化源于 AI 研究界的强烈反弹。此前,Anthropic 决定悄悄限制那些被怀疑试图将 Fable 蒸馏成竞争模型的用户,批评者警告说,这种安全措施也可能影响到试图评估这一前沿模型的第三方。在 system card 中,Anthropic 说,新一代模型加速 AI 开发的能力,足以成为针对这些请求的理由,并指出“使用 Claude 开发竞争模型已经违反了我们的服务条款”。Anthropic 过去曾指责 DeepSeek 等中国竞争对手以“工业化”规模不公平地蒸馏其模型。

来源与参考

  1. 原始链接
  2. Anthropic backpedals on Fable safety measure

收录于 2026-06-12