Anthropic 在封禁后全球恢复 Fable 5

The Decoder··作者 Matthias Bastian

关键信息

Anthropic 表示,新的分类器可在超过 99% 的情况下拦截 Amazon 研究人员发现的那种利用方式;当请求被拦截时,用户会收到通知,并被切换到更旧的 Opus 4.8 模型。公司还表示,Mythos 5 仍只向获批的美国机构开放,而在 AWS、Google Cloud 和 Microsoft Foundry 上的访问也会尽快恢复。

资讯摘要

Anthropic 表示,在美国政府因安全问题暂停两周后,Fable 5 现已重新恢复全球可用。该模型已经回到 Anthropic 自家的产品中,包括 Claude Platform、Claude.ai、Claude Code 和 Claude Cowork,并且 Pro、Max、Team 以及部分 Enterprise 用户在 7 月 7 日之前可获得更高的周使用额度。7 月 7 日之后,这些使用量将改为按 credits 计费,而在 AWS、Google Cloud 和 Microsoft Foundry 上的访问也会尽快恢复。Anthropic 确认,此次暂停源于 Amazon 研究人员发现的一个安全问题。研究人员找到了绕过 Fable 5 安全护栏的方法,而模型随后能够识别多个软件漏洞,并且在一个案例中生成了用于利用漏洞的代码。Anthropic 与美国政府花了两周时间共同审查这一问题后,才解除限制。Anthropic 认为这属于防御性网络安全工作中的边缘情况,并不是一个普遍适用的越狱方法。

为了解决这一问题,公司训练了新的安全分类器,据称它可以在超过 99% 的情况下阻止 Amazon 报告中的那种利用方式。若请求被拦截,用户会收到提示,并被转接到更旧的 Opus 4.8 模型。Anthropic 也承认这种改进存在代价:新的过滤器在日常编程和调试场景中会更频繁地误拦截无害请求,而这正是用户在首个 Fable 版本中已经抱怨过的问题。公司表示,当时并没有发现通用越狱方法,但它也承认,几乎不可能让任何 AI 模型完全免疫于越狱。为此,Anthropic 正与 Amazon、Microsoft、Google 以及其他 Glasswing 合作伙伴一起制定一套共享标准,用来评估越狱并决定何时触发应对措施。公司还在建立 24 小时监控越狱提交渠道的机制,并推出新的 HackerOne 项目,允许安全研究人员报告可能存在的 Fable 5 网络越狱问题。

Anthropic 在封禁后全球恢复 Fable 5

资讯正文

Anthropic 的 Fable 5 在因一次越狱漏洞而遭遇为期两周的政府禁令后,现已重新在全球上线。

要点

- 在暂停两周后,美国政府已解除对 Anthropic 第二强大的 AI 模型 Fable 5 的出口管制,使其再次可在全球范围内使用。

- 限制较少的版本 Mythos 5 仍仅面向一小部分美国组织开放。

- Anthropic 已训练出一个新的过滤器来阻止此类请求作为修复方案,但该过滤器也会更频繁地拒绝无害的编程任务。

在经历两周禁令后,美国政府正允许 Anthropic 再次向全球发售其最强大的 AI 模型。

从今天起,Fable 5 通过 Claude Platform、Claude.ai、Claude Code 和 Claude Cowork 重新在全球范围内开放。Pro、Max、Team 以及部分 Enterprise 套餐可在 7 月 7 日之前以每周使用上限的最高 50% 享有该模型。此后,它将按使用额度计费。AWS、Google Cloud 和 Microsoft Foundry 上的访问将“尽快”恢复。

同一基础模型的限制较少版本 Mythos 5,仍仅限于 6 月 26 日获得政府批准的一组美国组织。Anthropic 表示,它仍在与政府合作,争取在所谓的 Glasswing 计划中向更多合作伙伴扩大开放。目前尚不清楚欧盟是否会加入。

Anthropic 确认,这次禁令源于 Amazon 研究人员发现的一项安全问题。他们找到了一种绕过 Fable 5 安全护栏的方法。随后,该模型识别出了多个软件漏洞,并且在一个案例中生成了展示如何利用其中一个漏洞的代码。

Anthropic 表示,让一个 AI 模型“无法被越狱”可能“几乎不可能”。

美国政府和 Anthropic 花了两周时间调查这一漏洞。许多能力较弱的模型也能识别出 Fable 5 在报告中发现的相同缺陷,其中包括 Claude Opus 4.8、GPT-5.5 和 Kimi K2.7。对于那个具体的漏洞利用演示,所有接受测试的模型都给出了相同结果,即使像 Claude Haiku 4.5 这样小得多的模型也是如此。

Anthropic 将此称为一个边缘案例,只涉及常规的防御性网络安全工作。作为回应,公司训练了一个改进版安全分类器,能在超过 99% 的情况下阻止 Amazon 报告中的那种手法。当请求被拦截时,用户会看到通知,而该请求会被转交给旧版 Opus 4.8 模型处理。

不过,这个新的分类器也带来了取舍。它在日常编码和调试过程中会更频繁地把无害请求标记出来。用户此前已经抱怨,在第一版 Fable 发布时,这个模型过于严格。

在发布时,并未发现通用的越狱方法。但公司承认,“几乎不可能让任何 AI 模型完全稳健(也就是不受影响)地抵御越狱。”在 Fable 5 发布之前,这一点早已为人所知。

Anthropic认为,AI行业需要一个用于评估越狱并触发应对措施的共享标准。该公司表示,正在与 Amazon、Microsoft、Google 以及其他 Glasswing 合作伙伴一起构建这样的框架。Anthropic 还在组建一个团队,负责对越狱提交渠道进行全天候监控,并推出了一个新的 HackerOne 项目,安全研究人员可以通过该项目报告针对 Fable 5 的潜在网络越狱行为。

Anthropic 希望政府对前沿模型进行更紧密的监管

Anthropic 正在扩大其与美国政府的合作,并在双方围绕行政命令开展的联合工作基础上继续推进。

该公司作出了一系列承诺。政府合作伙伴将能在模型正式发布前提前接触那些在安全敏感领域推动能力进展的模型。发现的越狱手法或滥用模式将被迅速共享。Anthropic 将投入专门资源和大量算力用于联合研究。此外,该公司还将帮助为前沿模型提供方建立一套共享的行业标准。

Anthropic 希望把这一切写入“强有力的监管”之中,并同样适用于每一家前沿模型开发者。该公司写道:“AI 发布中的政府参与,需要一个持久、透明的流程,让网络防御者以及其他相关方对获取强大模型所需的确定性有保障。”

来源与参考

  1. 原始链接
  2. Anthropic's Fable 5 is back worldwide after a two-week government ban over a jailbreak