Claude Mythos 突破评测上限，安全警告升温

The Decoder·5月10日 17:25 UTC·作者 Matthias Bastian

关键信息

METR 说明，在其 228 个任务里，只有 5 个任务时长达到 16 小时或更长，因此这一范围内的测量不稳定，也不如覆盖更充分的任务长度有意义。Palo Alto Networks 则称，三周的模型驱动分析相当于约一年的人工渗透测试，而且在某些 AI 辅助场景下，从初始入侵到数据外传的时间可缩短到约 25 分钟。

资讯摘要

METR 是一家专注于 AI 风险评估的非营利机构，它表示 Claude Mythos Preview 已经触及其当前评测方法的天花板。该机构在 2026 年 3 月的一段测试窗口中估计，这个模型的 50% 时间跨度至少为 16 小时，95% 置信区间在 8.5 到 55 小时之间。这个指标表示：模型有 50% 的概率完成一项原本需要人类花费相应时间才能完成的任务。METR 认为，这已经接近它在不引入更长任务的情况下能够测量的上限。该测试套件共有 228 个任务，但只有 5 个任务时长达到 16 小时或更长，因此这一范围的结果不够稳定，也不如覆盖更充分的区间有意义。

METR 还表示，现有测试仍然可以区分出一个比当前已知最强模型更强的系统，但无法提供足够精确的量化比较或外推。该机构正在开发面向更长任务的新方法，不过这些方法还没有准备好。另一方面，Palo Alto Networks 表示，它近期获得了包括 Claude Mythos、OpenAI 的 GPT-5.5-Cyber 和 Claude Opus 4.7 在内的前沿模型的早期且不受限制的访问权限。该公司称，这种能力提升是“质变式”的，因为模型展现出对软件漏洞的直觉理解，能够自主发现漏洞并将多个弱点串联成攻击路径。Palo Alto Networks 还说，三周的模型辅助分析相当于一整年的人工渗透测试，而且在 AI 支持下，从初始入侵到数据外传的时间最短可缩短到约 25 分钟。

资讯正文

METR 说它几乎无法衡量 Claude Mythos，Palo Alto Networks 警告自主 AI 攻击者正在出现

要点

- Claude Mythos Preview 是首个让评估机构 METR 的测试方法碰到上限的 AI 模型：它在 16 小时任务上的成功率达到 50%，这意味着该模型的能力已经超出了当前基准测试能够可靠衡量的范围。

- 网络安全公司 Palo Alto Networks 在对 Mythos 和其他模型进行测试后警告，威胁态势正在发生变化；随着 AI 系统越来越多地以自主代理的形式运行，它们能够独立识别软件漏洞，并将这些漏洞关联到关键攻击路径上。

- 据 Palo Alto Networks 称，这些模型只用了三周时间就完成了一整年人工渗透测试的工作量，这凸显出 AI 正在多快地加速进攻性安全能力的发展。

评估机构 METR 在衡量 Claude Mythos 的能力时，正逐渐触及其测试方法的极限。与此同时，Palo Alto Networks 警告称，像 Mythos 这样的前沿模型正在从根本上重塑网络安全格局。

METR 的测试框架已经跟不上 Mythos 的进展

专注于 AI 风险评估的 METR 在 2026 年 3 月的一个有限时间窗口内，评估了 Claude Mythos Preview 的早期版本。该机构估计其 50% 时间跨度至少为 16 小时，95% 置信区间为 8.5 到 55 小时。

这一指标描述的是：对于一个人类需要指定时间才能完成的任务，模型有 50% 的概率完成它。METR 使用一系列任务时长的参考点，例如训练一个分类器（大约 45 分钟）或训练一个对抗鲁棒图像模型（大约 4 小时）。

METR 表示，Mythos 的这一数值“处于在没有新任务的情况下我们能够测量的上限”。在 228 个测试套件任务中，只有 5 个被归类为 16 小时或更长。这使得该范围内的测量“并不稳定，而且与任务覆盖更好的范围相比，意义也更有限”。因此，METR 不会对超过这一阈值的模型给出精确估计。

该机构指出，其现有测试套件“仍然可以区分出一个比当前公开已知最先进模型强大得多的模型”。但在这一范围内的测量不足以支持精确的定量比较或外推。

METR 正在开发包含更长任务的新方法，不过这些方法仍处于开发阶段。真正的安全风险可能在于，评估方法的进展速度正在落后于模型本身。

Palo Alto Networks 称最新前沿 LLM 是“能力上的一次跃迁”

网络安全公司 Palo Alto Networks 从安全角度评估了像 Claude Mythos 这样的前沿模型所带来的风险。该公司表示，最近它“早期、无限制地接触到了最新的前沿 AI 模型”，其中包括 Mythos、OpenAI 的 GPT-5.5-Cyber，以及 Claude Opus 4.7。

Palo Alto Networks 将其观察到的现象描述为“能力上的质变”。这些模型展现出对软件漏洞的“直觉式理解”，使 AI 的角色从助手转变为自主代理，能够“发现并串联漏洞，其规模之大远超大多数防御者的准备程度”。

根据该公司的博客文章，三周的基于模型分析，相当于整整一年的人工渗透测试，而且覆盖范围更广。在某些情况下，这些模型会把几个单独评级不高的漏洞组合成关键攻击路径。在 AI 支持的场景中，从初始访问到数据外泄的时间可以缩短至 25 分钟之短。

前沿模型正跨越门槛，成为自主操作员

Palo Alto Networks 将当前前沿模型相较其前代产品的编码效率提升估计为约 50%。公司写道：“这个数字听起来只是渐进式提升，但在实践中，它正是 AI 从有用的助手跨越到自主操作员的门槛。”

该公司还认为，快速增长且缺乏监控的攻击面构成了额外风险，因为随着本地 AI 代理变得更加普遍，“每台桌面电脑实际上都相当于一台服务器”。与此同时，大多数组织并不知道自己的员工正在生成和部署哪些代码。

在 Mythos 发布之后，该公司最初预测，攻击者要获得类似能力大约还需要六个月。Palo Alto Networks 表示，这一评估“已显著加速”。

独立研究证实威胁等级更高，但范围仍不明确

Anthropic 的 Claude Mythos 之所以引发网络安全领域的热议，部分原因在于该公司将这款模型描述为“过于危险”而无法发布，这是一种 OpenAI 早已在 GPT-2 上使用过的公关策略。

先前的研究一致认为，更强大的 AI 模型所带来的网络安全威胁已经上升。但这一威胁的实际范围仍不清楚。

英国 AI Security Institute（AISI）发现，Claude Mythos Preview 能够执行端到端网络攻击，但其假设是这最初只会影响脆弱、未受保护的网络。据称，OpenAI 已经推出的 GPT-5.5 也能解决类似的多阶段企业攻击模拟，甚至略高于 Mythos 的水平。更小型的 AI 模型据说也具备相近能力。

这些模型也能帮助防御。Mozilla 曾使用 Anthropic 的 Claude Mythos Preview 发现 Firefox 浏览器中的安全漏洞。根据该公司说法，仅在 2026 年 4 月，Mozilla 就修复了总计 423 个安全问题，创下纪录。

来源与参考

收录于 2026-05-11