GPT-5.5在网络安全测试中与Claude Mythos持平

The Decoder·5月1日 18:25 UTC·作者 Matthias Bastian

关键信息

GPT-5.5在‘最后之人’模拟中成功完成2次（共10次尝试），而Mythos为3次；两者均未能完成工业控制系统测试‘冷却塔’。AISI还发现了一种可在六小时内绕过所有安全过滤器的通用越狱方法。

资讯摘要

英国人工智能安全研究所（AISI）使用95个网络安全任务和两个真实攻击模拟测试了OpenAI的GPT-5.5和Anthropic的Claude Mythos Preview。GPT-5.5在无主动防御的32步企业攻击模拟中与Mythos持平，展示了强大的推理、编程和漏洞利用能力。尽管两者都未能完成工业控制系统测试‘冷却塔’，但GPT-5.5在孤立专家级任务上胜过Mythos。

关键的是，这些攻击能力并非来自专门训练，而是源于通用智能的提升，这对未受保护的网络构成严重风险。AISI还发现一种可在六小时内绕过所有安全措施的通用越狱方法，揭示了即使最先进模型也存在持续漏洞。

资讯正文

GPT-5.5在网络安全攻击测试中与Claude Mythos表现相当，英国人工智能安全研究所发现

关键要点

- 英国人工智能安全研究所（AISI）对OpenAI的GPT-5.5进行了测试，发现其在网络攻击能力上达到了与Anthropic公司Claude Mythos Preview版本相近的水平。

- GPT-5.5是继Mythos之后第二个能够完整完成复杂多阶段企业级攻击模拟的模型，但该测试是在没有启用任何主动防御机制的网络环境中进行的。

- AISI认为，这反映了更广泛的趋势：网络攻击能力正越来越多地成为通用人工智能在自主性、编程能力等方面提升的副产品，而非专门训练的结果。

OpenAI的GPT-5.5在英国人工智能安全研究所（AISI）组织的网络安全评估中表现与Anthropic的Claude Mythos Preview相当。该机构认为，这一结果表明AI驱动的攻击能力正在形成一种新的趋势。

英国人工智能安全研究所（AISI）对OpenAI的GPT-5.5进行了一系列网络安全攻击测试。结果显示，GPT-5.5是继Claude Mythos Preview之后第二个能够完整完成多阶段企业级攻击模拟的模型。在孤立的专家级安全任务中，GPT-5.5甚至略胜于Anthropic的模型。

对AISI而言，更大的意义在于，早在今年4月首次观察到Claude Mythos的能力并非偶然，而是自主性、推理能力和编码能力整体进步所带来的自然结果。

GPT-5.5在孤立专家任务中超越了Claude Mythos

AISI使用一套包含95个夺旗（CTF）任务的测试套件来评估AI模型，涵盖四个难度等级。其中高级任务由网络安全公司Crystal Peak Security和Irregular合作开发，包括逆向工程、针对多种内存漏洞的漏洞利用开发、密码学攻击以及混淆恶意软件的解包。

在完整的网络攻击模拟方面，GPT-5.5也成功破解了Claude Mythos之前唯一完成的任务

孤立任务用于测试单项技能，而真实攻击则需要将多个步骤串联起来。为此，AISI采用“网络靶场”——一种包含多个主机、服务和漏洞的模拟网络环境。

名为《最后的人》（TLO）的模拟场景覆盖32个步骤，涉及四个子网和约20台主机。AI代理从无任何凭证开始，必须发现漏洞、窃取凭证、横向移动网络，并最终访问受保护数据库。AISI估计，人类专家完成这一过程大约需要20小时。

GPT-5.5在10次尝试中有2次完全解决了TLO；Claude Mythos Preview在10次尝试中有3次达到相同目标。AISI表示，性能随着推理计算资源的增加而持续提升，即便是目前最优秀的模型仍未达到性能上限。模型投入更多‘思考’时间（即消耗更多token），就越有可能成功实施攻击。

不过，这些测试并未设置任何主动防御机制、安全监控或现实世界中会触发警报的行为后果。GPT-5.5或Mythos能否应对高度防护的系统仍是未知数。但对于缺乏有效防护的网络而言，这种能力显然已经存在。

一项名为“冷却塔”的二次模拟测试中，GPT-5.5未能应对针对工业控制系统攻击的场景。该测试包含7个步骤，目前尚无任何模型能够完全解决。根据英国人工智能安全研究所（AISI）的说法，GPT-5.5与Claude Mythos一样，在上游IT环节上出现了问题，而非工业控制系统本身。

一种通用越狱方法绕过了所有防护机制

除了基础能力之外，AISI还测试了GPT-5.5面向公众使用时的安全措施。研究人员发现了一种通用越狱方法，可对OpenAI标记的所有恶意网络请求都有效，包括多步骤代理场景。该方法仅用六小时便开发完成。

随后OpenAI推出了多项安全系统更新，但由于部署版本存在配置问题，AISI无法验证最终配置的实际防护效果。这再次证明，即便是在最强大的大语言模型中，越狱漏洞仍然是一个严重的安全弱点。

与Claude Mythos的一个关键区别在于：GPT-5.5已可通过ChatGPT和API直接使用，而Anthropic仍仅将Claude Mythos限制在小范围用户群体中。AISI的测试结果表明，Anthropic或许本可以省去这一层额外谨慎。或者，批评者可能说得没错——缓慢的发布节奏与其说是出于安全伦理考量，不如说是受限于Anthropic自身的计算资源。

来源与参考

收录于 2026-05-02