Mythos 进展快于预期

ZDNET AI··作者 Radhika Rajkumar

关键信息

AISI 表示,Mythos Preview 在 10 次尝试中有 6 次完成了“The Last Ones”,并在 10 次尝试中有 3 次完成了“Cooling Tower”,但该基准测试设置了 250 万 token 上限,以便横向比较不同时间点的结果。研究所同时警告说,这个 token 限制会低估前沿模型的真实能力,也使得在更长任务下衡量失败情况变得困难。

资讯摘要

ZDNET 报道称,Anthropic 的 Claude Mythos 被公司认为“过于强大,不适合面向公众广泛发布”,而它似乎正在非常快地获得新的能力。英国 AI 安全研究所 AISI 在周三发布的一篇博客中表示,他们测试了一个更新的 Mythos Preview 检查点,结果发现它的表现超过了 AISI 一个月前评估过的版本,也超过了 OpenAI 的 GPT-5.5。AISI 说,这个更新后的检查点首次完成了他们的两个网络攻防演练,其中包括此前从未被任何模型攻克的“Cooling Tower”演练。该模型在“The Last Ones”上 10 次尝试成功了 6 次,在“Cooling Tower”上 10 次尝试成功了 3 次。

Anthropic 在上个月首次公布 Mythos Preview 和 Project Glasswing 时,AISI 就曾评价它相较于此前的前沿模型有明显提升,而网络能力本身也在快速进步。此次更新评估进一步说明,能力提升不只发生在不同代际模型之间,也可能出现在同一模型家族的不同检查点中。AISI 还指出,AI 模型处理网络任务的能力增长非常快,并援引其 2026 年 2 月的内部估计称,自 2024 年末以来,模型可完成的网络任务长度大约每 4.7 个月翻一倍,快于他们 2025 年 11 月时估计的 8 个月一次翻倍。与此同时,AISI 也强调,这些结果可能仍然低估了前沿模型的真实能力,因为测试设有 250 万 token 上限,无法充分衡量更长任务下的表现。

Mythos 进展快于预期

来源与参考

  1. 原始链接
  2. Anthropic's Mythos is evolving faster than expected, reports AI safety agency

收录于 2026-05-15