基准显示 AI 可自主构建浏览器漏洞利用
The Decoder··作者 Matthias Bastian
关键信息
该基准采用五个进展层级,终点是任意代码执行,而不是简单崩溃或概念验证触发。Claude Mythos 在偶尔有人类提示的情况下平均得分 9.90/16,并在 41 个漏洞中有 21 个达到最高层级;GPT-5.5 只在两个漏洞上达到最高层级。
资讯摘要
卡内基梅隆大学研究人员构建了一个名为 ExploitBench 的基准,用来评估 AI 代理利用谷歌 V8 JavaScript 引擎真实漏洞的能力。与以往只看漏洞是否被触发的测试不同,这个基准把进展分成五个层级,最终目标是实现目标系统上的任意代码执行。由于 V8 为 Chrome、Edge、Node.js 和 Cloudflare Workers 等平台提供支撑,这一测试面对的是非常重要的攻击面。测试结果显示,Anthropic 的 Claude Mythos Preview 表现最好,在偶尔有人类提示的情况下平均得分为 9.90/16,并在 41 个漏洞中有 21 个达到了最高层级。OpenAI 的 GPT-5.5 落后不少,得分只有 5.51 分,而且只在两个漏洞上达到最高层级。
在完全自主模式下,Mythos 仍然拿到 9.55 分,几乎没有明显下降,而通过 Codex 运行的 GPT-5.5 只有 4.30 分。研究中没有其他模型实现完整代码执行。成本差异同样非常惊人:Mythos 的完整测试覆盖 122 个 episode,花费约 36,428 美元,而 GPT-5.5 覆盖 123 个 episode 的成本约为 3,075 美元。研究人员和外部审阅者都认为,Mythos 的表现接近一名相当合格的浏览器和 JS 引擎安全研究员,甚至还能复现一个人类研究者此前花了一年多都没能破解的漏洞利用方式。

资讯正文
新基准显示,Claude Mythos 和 GPT-5.5 能够自主开发真实的浏览器漏洞利用
关键要点
- 卡内基梅隆大学的研究人员开发了一个基准,用于评估 AI 代理在利用谷歌 V8 JavaScript 引擎中的真实世界漏洞时的有效程度,最高可达到完整代码执行。
- 据研究人员称,Anthropic 的 Claude Mythos Preview 模型表现明显优于 OpenAI 的 GPT-5.5,整体水平相当于一名胜任的人工安全研究员。
- 尽管结果出色,Mythos 的代价也很高:测试成本约为 36,400 美元,超过 GPT-5.5 的十倍以上,这也引发了人们对成本效益的质疑。
卡内基梅隆大学的研究人员构建了一个新的基准,用于衡量 AI 代理在利用谷歌 JavaScript 引擎 V8 中真实世界漏洞时,究竟能走多远。Mythos 以巨大优势领先 GPT-5.5,但代价高得惊人。
与以往测试不同,这个基准不只是检查漏洞是否被触发,而是按照五个层级对进展进行评分,最高可达到任意代码执行,也就是在目标系统上运行你想运行的任何命令。V8 为 Chrome、Edge、Node.js 和 Cloudflare Workers 等系统提供支持。
Anthropic 的 Claude Mythos Preview 在偶尔有人类提示(“nudges”)的情况下,平均得分为 9.90 分(满分 16 分),并在 41 个漏洞中的 21 个上达到了最高等级。OpenAI 的 GPT-5.5 则远远落后,仅得 5.51 分,只在两个漏洞上达到了顶级。
在完全自主模式下,这一差距变得更大。Mythos 的得分为 9.55 分,几乎没有下降;而通过 Codex 的 GPT-5.5 仅获得 4.30 分。其他被测试的模型都没有实现完整代码执行(T1)。
价格差异也十分明显:根据 ExploitBench 的数据,整个 Mythos 测试运行共 122 个 episode,花费约 36,428 美元。通过 Codex 运行的 GPT-5.5 共 123 个 episode,花费约 3,075 美元,便宜了大约十二倍。英国 AI Safety Institute 最近的一项测试也证实,Mythos 的表现略优于 GPT-5.5,但成本要高得多。这个价格差距表明,OpenAI 也许可以通过投入更多算力来缩小性能差距。
Mythos 的表现像一位“相当能干”的浏览器安全研究员
ExploitBench 的合著者 Seunghyun Lee 本人就是一名经验丰富的安全研究员,曾报告过 20 多个浏览器漏洞。他逐一审阅了 Mythos 的转录记录,得出的结论是:这个模型的工作方式像一位“相当能干的浏览器/JS 引擎安全研究员”。
在一个案例中,Mythos 开发出了一种利用技术,而 Lee 和一位同事此前曾认为这种技术过于复杂而予以否定。Lee 还表示,在另一个案例中,它复现了一个人类研究人员超过一年都未能攻破的漏洞(CVE-2024-0519)。
研究人员承认,被测试的漏洞都是公开已知的,因此模型理论上可能会借助训练数据。不过,数据集也包含了没有公开利用代码或漏洞报告的漏洞。该基准目前还没有衡量模型发现新漏洞或将漏洞完全武器化、用于真实攻击的能力。
该基准测试已在 GitHub 上公开,论文则发布在 arXiv 上。Anthropic 和 OpenAI 提供了 API 额度;作者表示,所有分析均独立完成。
来源与参考
收录于 2026-05-17