Anthropic的Fable 5在出口管制解除后回归

The Verge AI··作者 Hayden Field

关键信息

Anthropic表示,它改进了安全分类器,用来阻止此前引发限制的越狱行为,并称该特定技术现在在超过99%的情况下会被拦截。公司还说,被拦截的请求会转发到Opus 4.8,而且在云平台上的恢复上线目前还没有确定时间表。

资讯摘要

Anthropic表示,在与特朗普政府进行了数周谈判后,Claude Fable 5 终于可以重新上线。公司在 X 上发文称,将从周三开始先在全球用户可访问的 Claude 平台恢复权限,随后还会在 AWS、Google Cloud 和 Microsoft Foundry 上重新开放,但这些云平台没有给出明确时间表。Anthropic 还表示,美国商务部已经解除对 Fable 5 和 Mythos 5 的出口管制。公司同一天晚些时候发布博客,详细说明了事件经过、调整后的安全防护措施,以及未来与政府共享信息的新流程。Anthropic 说,这些变化包括对即将发布模型进行预发布测试,以及让政府对与国家安全相关的模型进行更正式的评估。Fable 5 在今年 6 月初曾被暂时搁置,当时特朗普政府在一个周五晚间下达最后通牒,并因担心潜在的越狱问题而施加出口管制指令。

该指令禁止外国人使用 Mythos 5 或 Fable 5,其中甚至包括企业客户中的非美国成员,以及 Anthropic 自己的许多员工。为解决被 Amazon 研究人员指出的越狱手法,Anthropic 说它训练了一个改进的安全分类器来针对并阻止这种行为,并称该技术在超过 99% 的情况下已被拦截。公司还表示,对 Fable 5 的被拦截请求不会直接拒绝,而是会转发到 Opus 4.8。此前,政府已经允许 Mythos 5 回归,但仅限于一份预先批准的组织名单,并且这些组织中的非美国成员以及 Anthropic 的外国员工也才能重新使用。Anthropic 表示,接下来会继续与政府合作,争取进一步扩大访问范围,并推动前沿 AI 实验室采用共享的安全与评估标准。

Anthropic的Fable 5在出口管制解除后回归

资讯正文

在与特朗普政府谈判数周后,Anthropic 终于可以让 Claude Fable 5 重新上线了。Anthropic 在 X 上发文称,公司计划从周三开始恢复全球用户在 Claude 平台上的访问权限,并且还将很快在 AWS、Google Cloud 和 Microsoft Foundry 上重新启用访问,但目前尚未设定具体时间表。

Anthropic 写道:

> 我们已收到通知,美国商务部已经取消了对 Claude Fable 5 和 Mythos 5 的出口管制。

> 我们将从明天开始恢复访问,并会很快分享最新进展。

> 我们感谢用户的耐心,也感谢所有与我们一起推动这些模型重新部署的人。

该公司还于周二晚间发布了一篇博客文章,详细说明了相关事件的前因后果、其修订后的安全防护措施、正在推进的新的 AI 行业流程,以及其计划如何与政府分享信息的新方式,还有即将推出模型的预发布测试。

今年 6 月初,在特朗普政府于周五晚间发出最后通牒后,Anthropic 将 Fable 5 暂时搁置——这是一款面向消费者的模型,基于与 Anthropic 的 Mythos 5 相同的底层技术构建,但增加了更多安全防护措施。由于担心该技术可能被越狱,政府向 Anthropic 下达了出口管制指令,禁止任何外国国民(包括企业客户公司的非美国成员,甚至 Anthropic 自己的许多员工)使用 Mythos 5 或 Fable 5,也就是 Anthropic 过去一周一直大力宣传的这两款模型。

为应对这一被亚马逊研究人员标记、且在很大程度上促成出口管制指令出台的越狱问题,Anthropic 在博客文章中表示,公司“训练了一个改进的安全分类器,用于针对并阻止”这种行为,并补充说:“如果对 Fable 5 的请求被拦截,用户将会收到通知,该请求随后会被发送到 Opus 4.8。新的分类器意味着,亚马逊报告中所描述的具体技术在超过 99% 的情况下都会被阻止。”

特朗普政府最近批准了 Mythos 5 的恢复上线,但仅限于一个预先批准的组织名单。那些组织中的非美国成员,以及 Anthropic 自己的外国员工,都被允许重新获得该模型的访问权限。这一决定出炉不久前,OpenAI 刚刚发布了 GPT-5.6,而特朗普政府也只允许它在类似规则下亮相:分阶段推出,最初仅面向一个预先批准的组织和政府部门名单。

周二,Anthropic 写道,公司将“继续与政府协调,以扩大” Myhtos 5 面向更广泛的国内和国际合作伙伴的访问权限。公司还在博客文章中专门加入了一个完整章节,介绍其与特朗普政府密切合作的新计划——强调在经历了数月的公开争议、诉讼和总统行政措施之后,它为重新赢得政府信任所做的多次努力。

该公司写道,计划提供“发布前政府访问和评估”,尤其是针对与国家安全能力相关的模型,以便政府合作伙伴能够在更广泛发布之前,对这些模型的能力进行独立评估并测试防护措施。(在这些发布前测试期间,政府也将能够接触到 Anthropic 的技术人员。)Anthropic 还表示,计划在“发现重大越狱或滥用模式”时引入“快速信息共享”。

公司称,将与政府以及其他领先的 AI 实验室合作,创建一套“面向前沿模型提供商的、共享的自愿性安全与评估标准”。最后,Anthropic 表示将“组建专门的 Anthropic 团队,围绕共同的政府优先事项开展工作,提供相当可观的算力配额以支持政府测试和研究,并开放我们的安全和红队测试专业能力,帮助推动 AI 评估技术的发展”。

特朗普政府最初的出口管制指令出台得并不是时候,因为 Anthropic 正在准备 IPO,而且数月来一直因供应链风险认定问题与政府发生争执。

公司在博客文章中强调,目前“AI 行业内对于如何判定一次越狱的严重程度并没有共识”,而且这个问题“在未来几个月内只会变得更加尖锐,因为会有更多具备强大网络安全(以及其他)能力的模型被训练、评估并发布。”因此,公司表示,它已与 Amazon、Microsoft、Google 以及其他加入其 Project Glasswing 项目的企业合作,起草一套被广泛认可的 AI 越狱评估框架,提出四个类别:对攻击者能力的提升、对攻击者能力提升的广度、武器化的总体难易程度,以及可发现性(或他人重复这一越狱的难易程度)。Anthropic 还表示,已组建一个新团队,负责“对关键越狱提交渠道进行 24/7 监控”,并且很快还将推出一个 HackerOne 项目,供研究人员提交他们为 Fable 5 标记出的潜在越狱。

Anthropic 还在博客文章中加入了一则免责声明,写道:“要让任何 AI 模型完全稳健(也就是完全不受影响)地抵御越狱,可能是不可能的。我们预计会为我们的模型发现一些越狱,而且它们的严重程度会各不相同:会有许多轻微越狱、一些局部有害的越狱,尽管在撰写本文时尚未发现针对 Fable 5 的通用越狱,但安全研究专家仍在持续对其进行红队测试。”

来源与参考

  1. 原始链接
  2. Anthropic’s long-sidelined Fable 5 is greenlit to return

收录于 2026-07-02