GPT-5.5在网络安全测试中与Claude Mythos持平

The Decoder··作者 Matthias Bastian

关键信息

GPT-5.5在‘最后之人’模拟中成功完成2次(共10次尝试),而Mythos为3次;两者均未能完成工业控制系统测试‘冷却塔’。AISI还发现了一种可在六小时内绕过所有安全过滤器的通用越狱方法。

资讯摘要

英国人工智能安全研究所(AISI)使用95个网络安全任务和两个真实攻击模拟测试了OpenAI的GPT-5.5和Anthropic的Claude Mythos Preview。GPT-5.5在无主动防御的32步企业攻击模拟中与Mythos持平,展示了强大的推理、编程和漏洞利用能力。尽管两者都未能完成工业控制系统测试‘冷却塔’,但GPT-5.5在孤立专家级任务上胜过Mythos。

关键的是,这些攻击能力并非来自专门训练,而是源于通用智能的提升,这对未受保护的网络构成严重风险。AISI还发现一种可在六小时内绕过所有安全措施的通用越狱方法,揭示了即使最先进模型也存在持续漏洞。

GPT-5.5在网络安全测试中与Claude Mythos持平

资讯正文

GPT-5.5在网络安全攻击测试中与Claude Mythos表现相当,英国人工智能安全研究所发现

关键要点

- 英国人工智能安全研究所(AISI)对OpenAI的GPT-5.5进行了测试,发现其在网络攻击能力上达到了与Anthropic公司Claude Mythos Preview版本相近的水平。

- GPT-5.5是继Mythos之后第二个能够完整完成复杂多阶段企业级攻击模拟的模型,但该测试是在没有启用任何主动防御机制的网络环境中进行的。

- AISI认为,这反映了更广泛的趋势:网络攻击能力正越来越多地成为通用人工智能在自主性、编程能力等方面提升的副产品,而非专门训练的结果。

OpenAI的GPT-5.5在英国人工智能安全研究所(AISI)组织的网络安全评估中表现与Anthropic的Claude Mythos Preview相当。该机构认为,这一结果表明AI驱动的攻击能力正在形成一种新的趋势。

英国人工智能安全研究所(AISI)对OpenAI的GPT-5.5进行了一系列网络安全攻击测试。结果显示,GPT-5.5是继Claude Mythos Preview之后第二个能够完整完成多阶段企业级攻击模拟的模型。在孤立的专家级安全任务中,GPT-5.5甚至略胜于Anthropic的模型。

对AISI而言,更大的意义在于,早在今年4月首次观察到Claude Mythos的能力并非偶然,而是自主性、推理能力和编码能力整体进步所带来的自然结果。

GPT-5.5在孤立专家任务中超越了Claude Mythos

AISI使用一套包含95个夺旗(CTF)任务的测试套件来评估AI模型,涵盖四个难度等级。其中高级任务由网络安全公司Crystal Peak Security和Irregular合作开发,包括逆向工程、针对多种内存漏洞的漏洞利用开发、密码学攻击以及混淆恶意软件的解包。

在完整的网络攻击模拟方面,GPT-5.5也成功破解了Claude Mythos之前唯一完成的任务

孤立任务用于测试单项技能,而真实攻击则需要将多个步骤串联起来。为此,AISI采用“网络靶场”——一种包含多个主机、服务和漏洞的模拟网络环境。

名为《最后的人》(TLO)的模拟场景覆盖32个步骤,涉及四个子网和约20台主机。AI代理从无任何凭证开始,必须发现漏洞、窃取凭证、横向移动网络,并最终访问受保护数据库。AISI估计,人类专家完成这一过程大约需要20小时。

GPT-5.5在10次尝试中有2次完全解决了TLO;Claude Mythos Preview在10次尝试中有3次达到相同目标。AISI表示,性能随着推理计算资源的增加而持续提升,即便是目前最优秀的模型仍未达到性能上限。模型投入更多‘思考’时间(即消耗更多token),就越有可能成功实施攻击。

不过,这些测试并未设置任何主动防御机制、安全监控或现实世界中会触发警报的行为后果。GPT-5.5或Mythos能否应对高度防护的系统仍是未知数。但对于缺乏有效防护的网络而言,这种能力显然已经存在。

一项名为“冷却塔”的二次模拟测试中,GPT-5.5未能应对针对工业控制系统攻击的场景。该测试包含7个步骤,目前尚无任何模型能够完全解决。根据英国人工智能安全研究所(AISI)的说法,GPT-5.5与Claude Mythos一样,在上游IT环节上出现了问题,而非工业控制系统本身。

一种通用越狱方法绕过了所有防护机制

除了基础能力之外,AISI还测试了GPT-5.5面向公众使用时的安全措施。研究人员发现了一种通用越狱方法,可对OpenAI标记的所有恶意网络请求都有效,包括多步骤代理场景。该方法仅用六小时便开发完成。

随后OpenAI推出了多项安全系统更新,但由于部署版本存在配置问题,AISI无法验证最终配置的实际防护效果。这再次证明,即便是在最强大的大语言模型中,越狱漏洞仍然是一个严重的安全弱点。

与Claude Mythos的一个关键区别在于:GPT-5.5已可通过ChatGPT和API直接使用,而Anthropic仍仅将Claude Mythos限制在小范围用户群体中。AISI的测试结果表明,Anthropic或许本可以省去这一层额外谨慎。或者,批评者可能说得没错——缓慢的发布节奏与其说是出于安全伦理考量,不如说是受限于Anthropic自身的计算资源。

来源与参考

  1. 原始链接
  2. GPT-5.5 matches Claude Mythos in cyber attack tests, UK AI Security Institute finds

收录于 2026-05-02