Claude Mythos在自主网络攻击中实现73%成功率

The Decoder·4月15日 01:31 UTC·作者 Matthias Bastian

关键信息

测试使用名为“最后之人”（TLO）的模拟环境，Mythos平均完成32步中的22步，在10次尝试中有3次成功完全控制网络；但因IT网络早期卡顿未能触及工业控制系统。

资讯摘要

英国人工智能安全研究所评估了Anthropic的Claude Mythos Preview在一系列网络攻击模拟中的表现。它在专家级CTF挑战中实现了73%的成功率，并成为首个完成32步企业网络攻击模拟的AI模型——这通常需要人类专家耗时20小时。尽管在10次尝试中有3次成功完全控制网络，但测试环境缺乏主动防御或安全监控，引发对现实适用性的疑问。

该模型还难以突破工业控制系统（OT），因为在IT网络早期阶段就停滞不前。性能随计算预算提升而增强，表明随着推理能力增长，未来表现可能进一步提高。

资讯正文

Claude Mythos 可自主完成对防御薄弱的企业网络的端到端渗透

关键要点

- 英国人工智能安全研究所（AISI）评估了 Anthropic 公司的 Claude Mythos Preview 在网络攻击能力方面的表现，发现该模型在专家级别的夺旗挑战中取得了 73% 的成功率。

- Mythos Preview 是首个能够在模拟企业网络上完成完整 32 步攻击模拟的 AI 模型，在 10 次尝试中有 3 次成功接管整个网络。

- 然而，AISI 指出测试环境存在显著局限：模拟场景缺乏主动防御和安全监控机制，因此尚不清楚该模型在面对实际防护完善的真实系统时是否仍能取得类似效果。

英国人工智能安全研究所对 Anthropic 的 Claude Mythos Preview 进行了网络安全能力测试。这是首个 AI 模型在企业网络上自主完成完整攻击模拟的案例，前提是目标网络规模较小且防御薄弱。

据 AISI 称，Mythos Preview 标志着 AI 网络攻防能力的重大飞跃。仅两年前，最先进的模型还难以处理入门级网络安全任务。在受控评估中，Mythos Preview 能够在获得明确指令和网络访问权限的情况下，自主执行多阶段攻击，识别并利用漏洞。AISI 表示，这类任务通常需要人类安全专家花费数天才能完成。

夺旗挑战：专家级别成功率 73%

在夺旗（CTF）挑战中，AI 模型必须发现并利用目标系统的漏洞以获取隐藏标志。根据 AISI 数据，Mythos Preview 在初级任务中准确率约为 85%，在非专家级技术任务中约为 95%（使用 250 万 token 预算）。这一表现使其跻身 GPT-5.4、Codex 5.3 和 Claude Opus 4.6 的顶尖水平。

当计算预算提升至 5000 万 token 时，Mythos Preview 在实践者级别任务中得分约 93%，在专家级别挑战中得分为 73%。这一专家级别成绩尤为突出：据 AISI 称，此前没有任何模型能在 2025 年 4 月之前解决专家级别任务。

Anthropic 的 Claude Mythos 可自主入侵企业网络

AISI 指出，夺旗挑战仅测试单个技能的孤立表现，而真实网络攻击则需跨多个主机和网络段串联数十个步骤。

为衡量此类复杂性，该机构开发了一个名为“最后之人”（The Last Ones, TLO）的模拟实验：针对一个模拟企业网络进行 32 步攻击，从初始侦察到完全控制网络。AISI 估计，人类专家完成这一过程大约需要 20 小时。详细信息见附带论文。

Claude Mythos Preview 是首个能够端到端完成 TLO 模拟的模型，在 10 次尝试中有 3 次实现完全控制。平均而言，该模型完成了 32 步中的 22 步。排名第二的模型 Claude Opus 4.6 平均仅完成 16 步。

Claude Mythos 可以自主地从端到端攻破防御较弱的企业网络。

AISI 预计，随着推理计算能力的提升，性能还会继续改善。测试中使用了 1 亿 token 的预算，性能一直提升到该上限。另一篇关于网络安全任务推理扩展的博客文章更详细地讨论了这一趋势。

不过，Mythos Preview 版本确实表现出了一些局限性。该模型未能完成针对工业控制技术（运营技术，或 OT）的单独 AISI 攻击模拟，这类技术常用于发电厂和工厂。根据 AISI 的说法，这并不一定意味着模型在实际的 OT 组件上也会失败。它从未达到那一步，因为在早期阶段就卡在了模拟中的 IT 网络环节。

AISI 指出了一些注意事项：测试环境没有主动防御者、没有安全工具，且对可能触发真实网络警报的行为也没有任何后果。仅凭这些结果，无法判断 Mythos Preview 是否能在防御严密的系统中成功入侵。

不过，AISI 表示，该模型至少具备“自主攻击小型、防御薄弱且易受攻击的企业系统的能力，前提是已获得网络访问权限”。该机构计划未来在配备主动监控、终端检测和实时事件响应的加固环境中进行评估。

AI 网络能力提升了基础安全卫生的重要性

AISI 认为，这些结果突显了网络安全基本措施的重要性：定期打补丁、强访问控制、安全配置和全面日志记录。其他具备类似能力的模型很可能也已不远。

同时，该机构指出，AI 网络能力具有双重用途。虽然它们带来安全风险，但也可能显著增强网络安全防御。AISI 与英国国家网络安全中心（NCSC）联合发布的一篇博客文章概述了防御者如何准备并利用前沿 AI 技术。

自 2023 年以来，AISI 一直在追踪 AI 网络能力，并逐步提高了评估标准：从基于聊天的查询，到夺旗挑战，再到复杂的多阶段攻击模拟。

Mythos 真的太危险而不能发布吗？

Anthropic 在今年 4 月初正式推出 Claude Mythos。目前该模型仅向约 50 家公司开放，据称是出于网络安全担忧。AISI 的测试结果至少部分支持这一决定：该模型可在受控环境中自主攻击防御薄弱的网络。

批评者认为这种限制被夸大了，就像 2019 年 OpenAI 认为 GPT-2 太危险而不予发布一样。相比前代模型，性能提升幅度并不足以证明如此严格限制访问是合理的。有人认为这主要是营销策略，或者 Anthropic 实际上没有足够的算力来广泛提供该模型。但这些都是推测，我们只有等到你的电脑在 Mythos 级别的 AI 模型向公众发布后是否出问题，才能真正知道答案。

无炒作的人工智能新闻——由人类精选

订阅THE DECODER以获得无广告阅读体验，包括每周AI通讯、每年六次的独家“AI雷达”前沿报告、完整档案访问权限以及评论区访问权限。

来源与参考

收录于 2026-04-15