小型开源模型复现了Claude Mythos的网络安全能力

The Decoder··作者 Jonathan Kemper

关键信息

GPT-OSS-20b(36亿参数)成功识别并利用了FreeBSD中的关键内存漏洞,但一些模型未能复制Claude Mythos使用的精确技术——比如将payload拆分到多个网络请求中。

资讯摘要

Anthropic曾宣传其Claude Mythos模型能自主发现并利用软件漏洞,尤其是在模拟的企业网络中。然而,AISLE和Vidoc Security的两项新研究表明,小型开源模型(如GPT-OSS-20b和Kimi K2)也能复现这些成果。在测试FreeBSD NFS漏洞(CVE-2026-4747)时,所有被测模型都发现了该漏洞并提出了可行的攻击方案,尽管没有一个模型完全复制了Claude Mythos使用的payload分割方法。

而在更复杂的OpenBSD整数溢出问题上,结果差异显著,表明不存在一个全能的模型。这说明网络安全分析的能力分布不均,不同模型在不同任务上各有优势。

小型开源模型复现了Claude Mythos的网络安全能力

资讯正文

Claude Mythos的神话破灭,小型开源模型也能发现Anthropic展示的相同网络安全漏洞

Anthropic一直将Claude Mythos网络安全模型限制在小范围内使用,声称其能力是其他竞争对手无法匹敌的。但两项新研究显示,即使是小型且公开可用的模型,也能复现Anthropic展示的大部分漏洞分析。

通过Project Glasswing项目,Anthropic仅向由11个组织组成的联盟提供Claude Mythos Preview的有限访问权限,理由是该模型具备进攻性能力。内部测试和英国人工智能安全研究所的审计发现,只要网络规模较小、防御薄弱且存在漏洞,Mythos就能发现软件漏洞,自主构建可运行的攻击工具,并在模拟环境中接管整个企业网络。

现在,两项独立的复现工作正在动摇这种独家性的说法,但并未质疑该模型的整体性能。

第一项来自AISLE公司,该公司自2025年中以来一直在对开源软件进行AI辅助漏洞挖掘。AISLE表示,他们已向OpenSSL报告了15个漏洞,向curl报告了5个漏洞。创始人斯坦尼斯拉夫·福尔特将Anthropic公开样例中的代码片段输入多种模型,以观察小型和部分开放的模型能多大程度上自行拼凑出解决方案。第二项研究来自Vidoc Security,他们将GPT-5.4与Claude Opus 4.6结合使用了开源编码代理OpenCode。

小型模型也发现了FreeBSD漏洞

Anthropic重点展示的FreeBSD NFS漏洞(CVE-2026-4747)曾被作为Mythos实现自主发现与利用的范例。AISLE发现,它测试的全部8个模型都捕捉到了相关函数中的内存漏洞。其中包括一个仅有36亿活跃参数的模型GPT-OSS-20b,每百万token仅需0.11美元。所有模型都将此漏洞标记为严重级别,尽管它们对可覆盖缓冲区大小的估计略有差异。

每个模型还提出了合理的漏洞利用方案,推断为何操作系统的主要防护机制在此处不起作用。GPT-OSS-120b生成了一个接近真实攻击的指令序列。Kimi K2甚至自行发现,该攻击可以从一台感染机器自动传播到其他机器,而Anthropic本身并未提及这一细节。

真正困难的部分在于创造性方面。真正的攻击需要将超过1000字节的载荷塞进约304字节的空间内。Mythos通过将载荷拆分为15个单独的网络请求实现了这一点。研究人员指出,测试过的模型均未采用这一具体技巧,但找到了其他可行路径。

能力分布不均的图景

OpenBSD漏洞则情况不同。它要求对整数溢出和列表状态有数学层面的理解,结果差异极大。AISLE表示,GPT-OSS-120b在一个运行中就重建了完整的公开描述的漏洞利用链,并几乎直接提出实际的OpenBSD补丁作为修复方案。

Claude Mythos的神话正在破灭,因为小型开源模型正在捕捉Anthropic展示的相同网络安全漏洞。

Qwen3 32B在FreeBSD漏洞测试中表现稳健,称OpenBSD代码‘对这类场景具有鲁棒性’。Vidoc也遇到了类似困境:Claude Opus 4.6在三次运行中均复现了漏洞,而GPT-5.4则每次都遗漏了它。Fort将这种现象称为‘锯齿状的前沿’,即能力边界破碎且不均衡。没有哪个单一模型在网络安全领域始终最优,不同任务之间的排名变化非常剧烈。

当小型模型击败大型模型时

一项更具揭示性的测试使用了一个看似教科书级安全漏洞的简单代码片段。用户输入似乎未经过滤地流入数据库查询,但在几行之后,该输入实际上被丢弃了,因此这个漏洞并不存在。

在OpenAI方面,o3始终正确识别漏洞,o4-mini仅部分正确,而GPT-OSS-20b被列为正确。所有GPT-4.1模型和大多数GPT-5.4模型都未能成功识别。其他小型开源模型如Deepseek R1和Kimi K2则每次都准确判断。

当修复已存在时

Fort后来补充了一个重要前提:虽然每个模型都能可靠地指出未打补丁的FreeBSD代码存在漏洞,但只有GPT-OSS-120b——以及一定程度上的Qwen3-32B——能识别修补后的版本为安全。

GPT-OSS-20b、Kimi K2和Deepseek R1在每次运行中都犯错,并编造理由说明仍存在虚构漏洞。Fort并不认为这削弱了他的论点,相反,他说这恰恰证明了围绕模型的测试与筛选层才是关键所在。

真正的优势在于整个系统

Vidoc还测试了超出经典内存错误的案例。Botan案例涉及证书验证中的缺陷,允许伪造证书被当作可信证书通过。Claude Opus 4.6和GPT-5.4在三次运行中都发现了逻辑漏洞。在wolfSSL的平行测试中,两个模型都准确锁定了代码的关键部分,但误解了底层加密规则。每扫描一份文件的成本低于30美元。

这两项研究都指出,真正优势并不在于某个单一模型,而在于围绕模型构建的系统——包括验证、优先级排序和工作流。这覆盖了完整流程:从代码中挑选目标、逐步分析、检查结果,并区分真实漏洞与误报。

AISLE进一步提出,小型廉价模型已足够胜任大部分发现工作,使得广泛扫描成为可行策略。Fort写道:‘一千个合格的侦探遍地搜寻,比一个必须猜测何处寻找的天才侦探更能发现漏洞。’

两份报告都保留了这样一个可能性:Mythos在构建可部署利用代码方面仍具优势,但他们也指出,随着工具进步和模型自主性增强,这一差距很可能缩小。它们共同表明,在前沿模型与公开可用模型之间存在的界限,远比Anthropic宣传的要更易渗透,至少在漏洞发现方面是如此。

批评者指责Anthropic制造恐慌,认为该公司正在刻意吸引媒体关注,直到拥有足够的计算能力再向更广泛的用户开放Mythos模型。这种说法或许有一定道理。据《金融时报》报道,该报引用了多名知情人士的说法称,Anthropic正在推迟发布该模型,直到其具备足够的计算能力来服务客户。

AI新闻去 hype 版 – 由人类精选

订阅THE DECODER以获得无广告阅读体验、每周AI简报、每年六次独家的「AI雷达」前沿报告、完整档案访问权限以及评论区访问权限。

来源与参考

  1. 原始链接
  2. The myth of Claude Mythos crumbles as small open models hunt the same cybersecurity bugs Anthropic showcased

收录于 2026-04-19