美国要求Anthropic全球停用Fable 5和Mythos 5

The Decoder·6月13日 15:40 UTC·作者 Matthias Bastian

关键信息

Anthropic表示，该命令适用于所有外国公民，包括公司自己的国际员工，因此公司不得不向全球所有客户关闭访问。争议焦点是一种疑似越狱手段，Anthropic称其只暴露了少量已知的小漏洞，其能力与其他公开模型相近。

资讯摘要

美国政府已下令Anthropic在全球范围内关闭其Fable 5和Mythos 5 AI模型的访问，理由是国家安全担忧。Anthropic表示会遵守该指令，但公开质疑这一决定的依据。公司称，这项出口管制命令禁止所有外国公民访问这些模型，包括Anthropic自己的国际员工，因此若要合规，就必须向全球所有客户停用这些模型。Anthropic表示，其他模型仍然可以使用。公司把这一事件称为一种“误解”，并表示希望尽快恢复访问。Anthropic还说，计划在24小时内公布更多信息。

政府的担忧似乎来自一种疑似越狱方法，也就是可能绕过模型内置安全护栏的提示或技巧。Anthropic称其审查了该技术演示后，发现的只是少量此前已知的轻微漏洞，而且其他公开可用的模型也存在类似能力。公司进一步表示，这类能力在其他地方也很常见，包括OpenAI的GPT-5.5，安全研究人员日常也会使用类似能力来保护系统。Anthropic说，目前没有测试者找到能广泛绕过Fable 5安全机制的通用越狱方法，但也承认任何现有模型都无法做到完全防越狱。公司表示自己采用的是“纵深防御”策略，通过限制越狱影响范围、加强监控以及保留30天数据来检测和应对攻击。Anthropic还警告说，如果因为一个狭窄漏洞就强制召回商业模型，可能会给整个行业树立危险先例。

资讯正文

美国政府强制 Anthropic 为全球所有客户停用 Claude Fable 5 和 Mythos 5

要点

- 美国政府已下令 Anthropic 立即切断全球对其 AI 模型 Fable 5 和 Mythos 5 的访问，理由是国家安全担忧。

- 这项出口禁令覆盖所有外国国民，包括 Anthropic 自己的国际员工，实际上等于关闭了美国境外的访问权限。

- 该命令源于一次疑似越狱行为，政府认为这可能使用户绕过 Fable 5 内置的安全护栏；Anthropic 已公开对这一说法提出异议。

美国政府已指示 Anthropic 在全球范围内关闭对其最强大的 AI 模型 Fable 5 和 Mythos 5 的访问，理由是国家安全担忧。Anthropic 正在遵照执行，但也在公开反驳这一决定。

这项出口管制指令禁止所有外国国民访问 Fable 5 和 Mythos 5，无论他们是在美国境内还是境外。即便是 Anthropic 自己的外国员工也受到影响。

为了合规，Anthropic 必须切断全球所有客户的访问。根据公司的声明，Anthropic 的其他所有模型仍可使用。Anthropic 将此举称为一次“误解”，并表示正在尽快恢复访问。公司计划在 24 小时内分享更多细节。

政府称存在越狱风险，Anthropic 表示不同意

据 Anthropic 说，政府认为自己发现了一种绕过 Fable 5 安全措施的方法。公司表示，它审查了该技术的演示，发现它只识别出“少量此前已知、轻微的漏洞”，而其他公开可用的模型也能发现这些漏洞。

截至目前，所谓潜在越狱——政府至今仅以口头方式描述——本质上就是要求模型读取一个特定代码库并修复软件漏洞。Anthropic 说，它审查了这项指令背后的报告，并得出结论：所展示的能力“其他模型也普遍具备”，包括 OpenAI 的 GPT-5.5。安全研究人员已经每天都在使用这些能力来保护系统。

Anthropic 自身的网络安全营销反过来伤到了自己

在发布前，美国政府、英国 AI Safety Institute（UK AISI）、私营第三方机构以及内部团队合计对该模型进行了数千小时的测试。Anthropic 表示，其安全措施“明显比以往部署的任何模型都更有效”。用户甚至抱怨这些限制太过严格。

没有任何测试者发现一种通用越狱方法，也就是能够广泛绕过模型安全措施并解锁大量网络能力的方法。但 Anthropic 也表示，如今没有任何模型提供商能够做到对所有越狱手段完全免疫；考虑到大语言模型暴露出的攻击面之多，这一点也有充分记录。Anthropic 说，行业内使用的每一种防护措施都可能被非通用越狱利用，在特定情况下提取出某些信息。

知道这一点后，该公司采取了一项称之为“纵深防御”的策略：要么把越狱限制在非常狭窄的范围内，要么让其实施成本高到难以承受，同时进行广泛监测，以便快速发现并关闭成功的攻击。该策略的一部分包括对客户数据保留 30 天，Anthropic 说这给公司带来了“与客户之间的实际成本”，但也使越狱研究和缓解成为可能。

任何曾经因 Anthropic 带有恐惧营销色彩而批评过它的人，都能看出这里的讽刺意味。该公司花了数月时间大声警告 Mythos 级模型的网络安全风险，努力展示该模型有多么优越。如今，它却不得不主张，市场上已经存在的模型同样具备类似能力。

Anthropic 警告称，这会给整个行业树立一个危险的先例

Anthropic 正在遵从这项命令，但也明确表达了反对意见。“我们不同意，仅仅发现一个范围狭窄、潜在可行的越狱手段，就应当成为召回一款已部署给数亿人的商用模型的理由。”公司表示，如果把这一标准应用到整个行业，实际上将会使所有前沿模型提供商的新模型部署全部停摆。

Anthropic 在此前的公开声明中曾表示，政府应当有权阻止不安全的部署，但这一权力应通过一种“透明、公正、清晰且基于技术事实”的法律程序来行使。该公司说，当前的行动并不符合这些原则，并暗示这可能会成为 Anthropic 与美国政府持续冲突中的又一篇章。

美国政府最近发布了一项新的行政命令，允许 AI 开发者在发布前将其模型提交政府进行安全审查。Anthropic 欢迎这一做法，但显然在该指令下达时，这一流程还尚未建立。

LLM 仍然是所有网络安全体系中的薄弱环节

自大语言模型早期以来，越狱以及相关的提示注入问题一直是一个尚未解决的安全难题。没有任何一家 LLM 制造商能够免疫。至少从 GPT-3 时代起，这一漏洞就已为人所知，并影响所有基于 LLM 的系统。即便模型厂商已经加入了对策，ChatGPT 和 Claude 在某些条件下仍然会遭到提示注入攻击。

即便是有针对性的安全工作也未能奏效。大约一年前，Anthropic 构建了一套针对操纵尝试的专门防御，并将其投入一场公开越狱挑战。在五天时间里，超过 300,000 条消息、以及大约 3,700 个集体工时之后，这套系统被彻底攻破，其中还包括一个通用越狱手段。

来源与参考