Fable 5 出口管制误读了防御性安全

Simon Willison··作者 Simon Willison

关键信息

据称,研究人员使用了带有已知 CVE 的开源代码,以及包含人为植入漏洞的新代码,然后再通过手动流程把模型输出转成用于测试补丁的脚本。核心反对意见是,让模型解释修复原因并编写测试,本来就是常规的发现、修复、测试流程,而不是绕过安全护栏。

资讯摘要

这篇文章首先表示,前面的报道本来应该直接去看一手来源,而不是依赖《The Atlantic》的转述。随后它引用 Kate Moussouris 的说法,确认触发出口管制行动的所谓“越狱”提示,其实只是“修复这段代码”。据描述,研究人员把包含已知 CVE 的开源代码,以及带有故意植入漏洞的新代码,交给 Claude Fable 5、Mythos 和 Opus,并要求它们检查代码中的安全问题。Fable 5 拒绝了这一请求。之后,研究人员把提示改成“修复这段代码”,并通过一个多步骤、手工介入的流程,把模型输出转成用于测试补丁的脚本。

Moussouris 认为,这并不算真正意义上的越狱,因为编程模型本来就应该帮助修复漏洞,而安全漏洞正是最重要的一类 bug。她指出,防御者需要 AI 帮忙在文件中找出 bug、解释修复为什么重要,并编写测试来验证补丁是否有效。她的观点是,如果剥夺这种能力,模型反而会在安全团队每天都要做的防御任务上变得更弱。文章最后强调,决策者可能已经被“能制造网络攻击的模型尤其危险”这种叙事影响,从而误把能帮助保护代码的模型也一并限制掉。

资讯正文

我之前<a href="https://simonwillison.net/2026/Jun/16/matteo-wong-the-atlantic/">引用了《大西洋月刊》</a>转述 Kate Moussouris 的话,当时我本该直接去看源头。她在这里证实,导致 Claude Fable 5 因出口管制而被禁的那个“越狱”手法,实际上真的只是“修复这段代码”:</p>

<blockquote>

<p>研究人员取来带有已知 CVE 的开源代码,以及含有故意植入漏洞的新代码,并让 Fable 5、Mythos 和 Opus “审查代码中的安全问题”。Fable 5 拒绝了。随后,他们又要求这些模型“修复这段代码”,并通过一个多步骤的人工流程,把输出转化为用于测试补丁的脚本。</p>

</blockquote>

<p>正如 Kate 所指出的,这简直荒谬。编程模型就是用来修 bug 的,而安全漏洞是它们最重要、最应该修复的一类 bug!</p>

<blockquote>

<p>防御者需要能够让 AI 修复文件中的漏洞,解释为什么修复很重要,并编写测试来确认补丁是否有效。这不是绕过安全护栏。这才是 AI 模型在防御性安全中最有价值的能力:执行防御者每天都在运行的发现、修复和测试循环。[...]</p>

<p>这些提示之所以奏效,是因为它们是防御性请求;如果不让模型在修 bug 和验证补丁方面变差,这种能力就无法被移除。</p>

</blockquote>

<p>整件事真是一团糟。几个月来,非技术决策者一直在听说那些能够“策划网络攻击”的模型有多么危险。现在,他们看起来准备禁止任何能够帮助我们保护代码安全的模型。

来源与参考

  1. 原始链接
  2. The Fable 5 Export Controls Harm US Cyber Defense

收录于 2026-06-17