Mythos 进展快于预期

ZDNET AI·5月15日 01:32 UTC·作者 Radhika Rajkumar

关键信息

AISI 表示，Mythos Preview 在 10 次尝试中有 6 次完成了“The Last Ones”，并在 10 次尝试中有 3 次完成了“Cooling Tower”，但该基准测试设置了 250 万 token 上限，以便横向比较不同时间点的结果。研究所同时警告说，这个 token 限制会低估前沿模型的真实能力，也使得在更长任务下衡量失败情况变得困难。

资讯摘要

ZDNET 报道称，Anthropic 的 Claude Mythos 被公司认为“过于强大，不适合面向公众广泛发布”，而它似乎正在非常快地获得新的能力。英国 AI 安全研究所 AISI 在周三发布的一篇博客中表示，他们测试了一个更新的 Mythos Preview 检查点，结果发现它的表现超过了 AISI 一个月前评估过的版本，也超过了 OpenAI 的 GPT-5.5。AISI 说，这个更新后的检查点首次完成了他们的两个网络攻防演练，其中包括此前从未被任何模型攻克的“Cooling Tower”演练。该模型在“The Last Ones”上 10 次尝试成功了 6 次，在“Cooling Tower”上 10 次尝试成功了 3 次。

Anthropic 在上个月首次公布 Mythos Preview 和 Project Glasswing 时，AISI 就曾评价它相较于此前的前沿模型有明显提升，而网络能力本身也在快速进步。此次更新评估进一步说明，能力提升不只发生在不同代际模型之间，也可能出现在同一模型家族的不同检查点中。AISI 还指出，AI 模型处理网络任务的能力增长非常快，并援引其 2026 年 2 月的内部估计称，自 2024 年末以来，模型可完成的网络任务长度大约每 4.7 个月翻一倍，快于他们 2025 年 11 月时估计的 8 个月一次翻倍。与此同时，AISI 也强调，这些结果可能仍然低估了前沿模型的真实能力，因为测试设有 250 万 token 上限，无法充分衡量更长任务下的表现。

来源与参考

收录于 2026-05-15