Anthropic's safety warnings may have just backfired — the government has pulled the plug on its most powerful AI | TechCrunch

TechCrunch AI·6月13日 10:26 UTC·作者 Connie Loizos

资讯摘要

The U.S. government on Friday ordered Anthropic to immediately shut off access to two of its most powerful AI models — Claude Fable 5 and Claude Mythos 5 — citing national security concerns. Anthropic announced on X that it has complied, but it made clear it thinks the government got this one wrong. The directive, which Anthropic said it received on Friday at 5:21 pm ET, forces the company to disable both models for all users worldwide — not just the foreign nationals the government’s export control order was nominally aimed at. Access to Anthropic’s other models isn’t affected. Why does any of this matter?

Anthropic's safety warnings may have just backfired — the government has pulled the plug on its most powerful AI | TechCrunch

资讯正文

美国政府周五下令 Anthropic 立即关闭其两款最强大的 AI 模型——Claude Fable 5 和 Claude Mythos 5——的访问权限，理由是国家安全担忧。Anthropic 在 X 上宣布已遵照执行，但也明确表示，公司认为政府这次做错了。

Anthropic 说，这项指令于周五美国东部时间下午 5:21 收到，要求公司对全球所有用户禁用这两款模型，而不仅仅是政府出口管制令名义上针对的外国国民。Anthropic 其他模型的访问不受影响。

为什么这一切重要？Mythos 是 Anthropic 最强大的 AI 模型，公司在 4 月初首次预览后，一直对其实施严格限制，因为 Anthropic 将其描述为在软件中发现安全漏洞的非凡能力。根据 Anthropic 的说法，Mythos 在测试过的所有主流操作系统和网页浏览器中都识别出了漏洞，因此公司没有广泛发布它，而是启动了一个名为 Project Glasswing 的受控项目，与大约 50 家经过审查的机构分享，包括 Amazon、Apple、Google、Microsoft 和 CrowdStrike，用于防御性网络安全工作。

Fable 5 则是在短短三天前发布的，Anthropic 将其视为对显而易见的商业压力的回应：它是 Mythos 的一个版本，加入了护栏，能够阻止其在网络安全和生物学等高风险领域给出回答，因此公司认为它已经足够安全，可以面向大众发布。根据跟踪 AI 技术表现的公司 Vals AI 的基准测试结果，它立刻成为公开可用的、能力最强的 AI 模型。

政府的指令被表述为一项出口管制行动，限制外国国民对这些模型的访问。但 Anthropic 在一篇长博客文章中表示，据其理解，真正的担忧是所谓对 Fable 5 的越狱。到目前为止，公司称政府只提供了口头证据，称存在一次“潜在的、狭窄的、非普遍性的越狱”——按照 Anthropic 的描述，这基本上就是提示模型去阅读某个特定代码库并识别软件缺陷。顺便说一句，公司补充道，这种“能力水平”在其他可公开访问的模型中已经相当普遍可用，包括 OpenAI 的 GPT-5.5。Anthropic 还表示，网络安全专业人士也会常规性地将其用于防御目的。

Anthropic 更广泛的观点是，其最强的安全防护是通过独立的分类器系统来实现的，这些系统与模型本身分开运作，这意味着即使有人设法让 Fable 在拒绝之后继续回应，针对最危险输出的底层保护仍然会继续生效。

显然，这些都不足以阻止政府采取行动，而 Anthropic 也没有掩饰自己的挫败感。公司写道：“我们不同意，认为仅仅发现一个狭窄的潜在越狱就应成为召回一个已部署给数亿人的商业模型的理由。”“如果把这一标准应用到整个行业，我们认为这实际上会使所有前沿模型提供商的新模型部署全面停摆。”

Anthropic被普遍认为今年将推进IPO，并且一直把自身的公开形象建立在“比竞争对手更重视安全”的定位之上。讽刺的是，观察人士发现，Anthropic在限制 Mythos 时所表现出的谨慎——它曾把这款模型宣传得危险到不能公开发布——如今似乎恰恰引来了可能最会扰乱其业务的那类政府审查。

至少，OpenAI的 Sam Altman 眼下大概正乐在其中。4月，他在与播客主持人 Ashlee Vance 的对谈中表示，Anthropic 处理 Mythos 的方式等同于“基于恐惧的营销”。Altman 说：“显然，这种营销非常厉害：‘我们造了一颗炸弹。我们正要把它扔到你头上。我们愿意以1亿美元卖给你一个防空洞。’”Altman 旗下公司也被普遍认为会尽快推进IPO，他并没有预见到政府会直接叫停，但他指出了一件如今反过来刺痛 Anthropic 的事情：当你花上数月告诉全世界你的AI有多么危险时，全世界——包括美国政府在内——往往真的会认真听。

来源与参考

收录于 2026-06-14