美国向Anthropic施压要求“不可被攻破”的LLM

The Decoder·6月16日 02:06 UTC·作者 Matthias Bastian

关键信息

文章认为，提示注入和越狱仍然是 LLM 尚未解决的安全问题，因此要求模型做到完全不可被攻破可能并不现实。文章还提到，100 多名安全专家和科技高管联名致信美国官员，要求取消对 Anthropic 模型的出口限制，理由是其他模型也能完成类似的安全工作。

资讯摘要

文章描述了特朗普政府与 Anthropic 之间围绕 AI 发布审查和网络风险不断升级的争议。根据 Axios 的说法，政府官员认为 Anthropic 无视了最近发布的网络安全行政命令，在负责审查的政府清算机构尚未建立之前就发布了 Fable 5。另一名官员还声称 Anthropic 明知存在可能的越狱风险却仍继续推进，不过文章也指出，关于该越狱的线索据称来自 Amazon 和其他科技公司，尚未被证实。文章称，美国商务部官员和 Anthropic 员工目前仍在沟通，后续还可能有更多会议，甚至涉及 CIA 和科学顾问 Michael Kratsios。

文章认为，政府的表述反而暴露出其对 LLM 安全的理解不足，因为提示注入和越狱本来就是已知问题，而且目前并没有彻底的解决方案。与此同时，文章也指出 Anthropic 并不占优势，因为其 CEO Dario Amodei 早在 2023 年就警告过，如果有人在科学、技术或生物等敏感领域绕过安全机制，越狱可能“关乎生死”。此外，100 多名安全专家和科技行业高管联名致信贸易部长 Lutnick 和国家网络主管 Cairncross，呼吁取消对 Fable 和 Mythos 的出口限制。信中认为，Anthropic 的模型并不是唯一能发现软件漏洞的系统，GPT-5.5、Opus、Sonnet 以及中国的 Kimi 2.7 也能完成类似任务。

资讯正文

美国政府要求 Anthropic 推出“无法被黑”的 LLM，或许是在提不可能完成的任务

政府官员似乎正在指责 Anthropic 无视特朗普的网络安全指令，在没有明确批准的情况下发布了 Fable 5。相关讨论仍在继续，但政府所称的“越狱”指控，更多暴露的是其自身知识上的空白。

“所有人都说 Anthropic 是个不良行为者。我们中有些人说，是时候给他们一个机会了。现在那些人也开始质疑这一点了。他们把我们坑了。”据 Axios 报道，一名政府官员如此概括特朗普政府与 Anthropic 之间的冲突。

正如我所预料的那样，政府官员指责 Anthropic 无视特朗普近期发布的网络安全行政令。该行政令要求对 AI 模型进行据称是自愿性质的政府监管。Anthropic 对这一提议表示欢迎，但在指定的审查机构尚未建立、无法对发布作出批准前，就先行发布了 Fable 5。

一名政府官员还指责 Anthropic 明知会发生越狱。“他们在每一个岔路口都走错了路。”据称，这条关于越狱的线索来自亚马逊和其他科技公司；不过该越狱是否存在以及严重程度如何，尚未得到证实。

政府消息人士还向 Axios 批评了双方的沟通方式。“就像他们说着完全不同的语言。”据报道，美国商务部和 Anthropic 员工正在进行谈判，后续还计划与 CIA 以及科学顾问 Michael Kratsios 举行更多会议。

指责 Anthropic 知道越狱风险却保持沉默，其实更多反映的是政府对 AI 的理解，而不是 Anthropic 的问题。任何与 AI 模型密切合作的人都知道，它们是可以被黑的。OpenAI 也警告过，提示注入（prompt injection）这种相关的攻击方式，可能永远无法被彻底解决。LLM 安全目前还没有现成的修复方案。

真正的问题在于漏洞有多严重，以及补救措施推进得有多快。但如果美国政府坚持要求前沿 AI 模型在国际发布前必须“无法被黑”，那接下来会有一场艰难的谈判。话说回来，Anthropic 自身的处境也并不乐观。首席执行官 Dario Amodei 早在 2023 年就表示，如果有人能够绕过科学、技术和生物学领域的安全协议，“一次越狱可能关系到生死”。

网络安全专家为 Anthropic 辩护

与此同时，100 多位安全专家和科技行业高管已经联名致信贸易部长 Lutnick 和国家网络总监 Cairncross，呼吁取消对 Fable 和 Mythos 的出口管制。他们认为，虽然 Anthropic 的模型在发现软件安全漏洞方面很强，但并不是唯一强的。像 GPT-5.5、Opus、Sonnet，以及中国的 Kimi 2.7 等其他模型，也能做同样的事情。

Anthropic 还在 Fable 中内置了多项防护措施，而安全社区在发布当天实际上认为这些措施有些过度。联署者警告称，出口管制正在让防御者失去最好的工具，而中国的开源权重模型距离美国顶尖模型也只差几个月。

签署者包括 Alex Stamos（Corridor）、Rachel Tobac（SocialProof Security）、Katie Moussouris（Luta Security）、Dan Lorenc（Chainguard）以及 Joe Levy（Sophos）。

来源与参考

收录于 2026-06-16