美国要求Anthropic全球停用Fable 5和Mythos 5
The Decoder··作者 Matthias Bastian
关键信息
Anthropic表示,该命令适用于所有外国公民,包括公司自己的国际员工,因此公司不得不向全球所有客户关闭访问。争议焦点是一种疑似越狱手段,Anthropic称其只暴露了少量已知的小漏洞,其能力与其他公开模型相近。
资讯摘要
美国政府已下令Anthropic在全球范围内关闭其Fable 5和Mythos 5 AI模型的访问,理由是国家安全担忧。Anthropic表示会遵守该指令,但公开质疑这一决定的依据。公司称,这项出口管制命令禁止所有外国公民访问这些模型,包括Anthropic自己的国际员工,因此若要合规,就必须向全球所有客户停用这些模型。Anthropic表示,其他模型仍然可以使用。公司把这一事件称为一种“误解”,并表示希望尽快恢复访问。Anthropic还说,计划在24小时内公布更多信息。
政府的担忧似乎来自一种疑似越狱方法,也就是可能绕过模型内置安全护栏的提示或技巧。Anthropic称其审查了该技术演示后,发现的只是少量此前已知的轻微漏洞,而且其他公开可用的模型也存在类似能力。公司进一步表示,这类能力在其他地方也很常见,包括OpenAI的GPT-5.5,安全研究人员日常也会使用类似能力来保护系统。Anthropic说,目前没有测试者找到能广泛绕过Fable 5安全机制的通用越狱方法,但也承认任何现有模型都无法做到完全防越狱。公司表示自己采用的是“纵深防御”策略,通过限制越狱影响范围、加强监控以及保留30天数据来检测和应对攻击。Anthropic还警告说,如果因为一个狭窄漏洞就强制召回商业模型,可能会给整个行业树立危险先例。

资讯正文
美国政府强制 Anthropic 为全球所有客户停用 Claude Fable 5 和 Mythos 5
要点
- 美国政府已下令 Anthropic 立即切断全球对其 AI 模型 Fable 5 和 Mythos 5 的访问,理由是国家安全担忧。
- 这项出口禁令覆盖所有外国国民,包括 Anthropic 自己的国际员工,实际上等于关闭了美国境外的访问权限。
- 该命令源于一次疑似越狱行为,政府认为这可能使用户绕过 Fable 5 内置的安全护栏;Anthropic 已公开对这一说法提出异议。
美国政府已指示 Anthropic 在全球范围内关闭对其最强大的 AI 模型 Fable 5 和 Mythos 5 的访问,理由是国家安全担忧。Anthropic 正在遵照执行,但也在公开反驳这一决定。
这项出口管制指令禁止所有外国国民访问 Fable 5 和 Mythos 5,无论他们是在美国境内还是境外。即便是 Anthropic 自己的外国员工也受到影响。
为了合规,Anthropic 必须切断全球所有客户的访问。根据公司的声明,Anthropic 的其他所有模型仍可使用。Anthropic 将此举称为一次“误解”,并表示正在尽快恢复访问。公司计划在 24 小时内分享更多细节。
政府称存在越狱风险,Anthropic 表示不同意
据 Anthropic 说,政府认为自己发现了一种绕过 Fable 5 安全措施的方法。公司表示,它审查了该技术的演示,发现它只识别出“少量此前已知、轻微的漏洞”,而其他公开可用的模型也能发现这些漏洞。
截至目前,所谓潜在越狱——政府至今仅以口头方式描述——本质上就是要求模型读取一个特定代码库并修复软件漏洞。Anthropic 说,它审查了这项指令背后的报告,并得出结论:所展示的能力“其他模型也普遍具备”,包括 OpenAI 的 GPT-5.5。安全研究人员已经每天都在使用这些能力来保护系统。
Anthropic 自身的网络安全营销反过来伤到了自己
在发布前,美国政府、英国 AI Safety Institute(UK AISI)、私营第三方机构以及内部团队合计对该模型进行了数千小时的测试。Anthropic 表示,其安全措施“明显比以往部署的任何模型都更有效”。用户甚至抱怨这些限制太过严格。
没有任何测试者发现一种通用越狱方法,也就是能够广泛绕过模型安全措施并解锁大量网络能力的方法。但 Anthropic 也表示,如今没有任何模型提供商能够做到对所有越狱手段完全免疫;考虑到大语言模型暴露出的攻击面之多,这一点也有充分记录。Anthropic 说,行业内使用的每一种防护措施都可能被非通用越狱利用,在特定情况下提取出某些信息。
知道这一点后,该公司采取了一项称之为“纵深防御”的策略:要么把越狱限制在非常狭窄的范围内,要么让其实施成本高到难以承受,同时进行广泛监测,以便快速发现并关闭成功的攻击。该策略的一部分包括对客户数据保留 30 天,Anthropic 说这给公司带来了“与客户之间的实际成本”,但也使越狱研究和缓解成为可能。
任何曾经因 Anthropic 带有恐惧营销色彩而批评过它的人,都能看出这里的讽刺意味。该公司花了数月时间大声警告 Mythos 级模型的网络安全风险,努力展示该模型有多么优越。如今,它却不得不主张,市场上已经存在的模型同样具备类似能力。
Anthropic 警告称,这会给整个行业树立一个危险的先例
Anthropic 正在遵从这项命令,但也明确表达了反对意见。“我们不同意,仅仅发现一个范围狭窄、潜在可行的越狱手段,就应当成为召回一款已部署给数亿人的商用模型的理由。”公司表示,如果把这一标准应用到整个行业,实际上将会使所有前沿模型提供商的新模型部署全部停摆。
Anthropic 在此前的公开声明中曾表示,政府应当有权阻止不安全的部署,但这一权力应通过一种“透明、公正、清晰且基于技术事实”的法律程序来行使。该公司说,当前的行动并不符合这些原则,并暗示这可能会成为 Anthropic 与美国政府持续冲突中的又一篇章。
美国政府最近发布了一项新的行政命令,允许 AI 开发者在发布前将其模型提交政府进行安全审查。Anthropic 欢迎这一做法,但显然在该指令下达时,这一流程还尚未建立。
LLM 仍然是所有网络安全体系中的薄弱环节
自大语言模型早期以来,越狱以及相关的提示注入问题一直是一个尚未解决的安全难题。没有任何一家 LLM 制造商能够免疫。至少从 GPT-3 时代起,这一漏洞就已为人所知,并影响所有基于 LLM 的系统。即便模型厂商已经加入了对策,ChatGPT 和 Claude 在某些条件下仍然会遭到提示注入攻击。
即便是有针对性的安全工作也未能奏效。大约一年前,Anthropic 构建了一套针对操纵尝试的专门防御,并将其投入一场公开越狱挑战。在五天时间里,超过 300,000 条消息、以及大约 3,700 个集体工时之后,这套系统被彻底攻破,其中还包括一个通用越狱手段。
来源与参考