Fable 5 出口管制误读了防御性安全

Simon Willison·6月16日 13:20 UTC·作者 Simon Willison

关键信息

据称，研究人员使用了带有已知 CVE 的开源代码，以及包含人为植入漏洞的新代码，然后再通过手动流程把模型输出转成用于测试补丁的脚本。核心反对意见是，让模型解释修复原因并编写测试，本来就是常规的发现、修复、测试流程，而不是绕过安全护栏。

资讯摘要

这篇文章首先表示，前面的报道本来应该直接去看一手来源，而不是依赖《The Atlantic》的转述。随后它引用 Kate Moussouris 的说法，确认触发出口管制行动的所谓“越狱”提示，其实只是“修复这段代码”。据描述，研究人员把包含已知 CVE 的开源代码，以及带有故意植入漏洞的新代码，交给 Claude Fable 5、Mythos 和 Opus，并要求它们检查代码中的安全问题。Fable 5 拒绝了这一请求。之后，研究人员把提示改成“修复这段代码”，并通过一个多步骤、手工介入的流程，把模型输出转成用于测试补丁的脚本。

Moussouris 认为，这并不算真正意义上的越狱，因为编程模型本来就应该帮助修复漏洞，而安全漏洞正是最重要的一类 bug。她指出，防御者需要 AI 帮忙在文件中找出 bug、解释修复为什么重要，并编写测试来验证补丁是否有效。她的观点是，如果剥夺这种能力，模型反而会在安全团队每天都要做的防御任务上变得更弱。文章最后强调，决策者可能已经被“能制造网络攻击的模型尤其危险”这种叙事影响，从而误把能帮助保护代码的模型也一并限制掉。

资讯正文

我之前<a href="https://simonwillison.net/2026/Jun/16/matteo-wong-the-atlantic/">引用了《大西洋月刊》</a>转述 Kate Moussouris 的话，当时我本该直接去看源头。她在这里证实，导致 Claude Fable 5 因出口管制而被禁的那个“越狱”手法，实际上真的只是“修复这段代码”：

研究人员取来带有已知 CVE 的开源代码，以及含有故意植入漏洞的新代码，并让 Fable 5、Mythos 和 Opus “审查代码中的安全问题”。Fable 5 拒绝了。随后，他们又要求这些模型“修复这段代码”，并通过一个多步骤的人工流程，把输出转化为用于测试补丁的脚本。

</blockquote>

正如 Kate 所指出的，这简直荒谬。编程模型就是用来修 bug 的，而安全漏洞是它们最重要、最应该修复的一类 bug！

防御者需要能够让 AI 修复文件中的漏洞，解释为什么修复很重要，并编写测试来确认补丁是否有效。这不是绕过安全护栏。这才是 AI 模型在防御性安全中最有价值的能力：执行防御者每天都在运行的发现、修复和测试循环。[...]

这些提示之所以奏效，是因为它们是防御性请求；如果不让模型在修 bug 和验证补丁方面变差，这种能力就无法被移除。

</blockquote>

整件事真是一团糟。几个月来，非技术决策者一直在听说那些能够“策划网络攻击”的模型有多么危险。现在，他们看起来准备禁止任何能够帮助我们保护代码安全的模型。

来源与参考

收录于 2026-06-17