OpenAI 推出受限预览的 GPT-5.6 Sol

The Decoder··作者 Matthias Bastian

关键信息

OpenAI 表示,Sol 在多个基准测试中与 Claude Mythos 5 持平或更强,并在代理式编程方面明显领先,在网络安全任务中也更节省 token。Terra 被定位为更便宜、性能接近 GPT-5.5 的型号,Luna 则是最低成本选项;OpenAI 还加入了“max”和“ultra”模式,用于更深度推理和并行子代理执行。

资讯摘要

OpenAI 推出了 GPT-5.6 Sol,这是一个旨在与 Anthropic Claude Mythos 系列竞争的新一代模型。当前发布仍处于受限阶段,只通过 API 和 Codex 向少数合作伙伴开放,OpenAI 说这是在美国政府明确要求下进行的。公司还表示,这种访问控制不应成为长期默认做法,因为它会让用户、开发者、企业、网络防御者和全球合作伙伴无法及时获得最强工具。GPT-5.6 还引入了新的分层命名方式,其中 Sol 是旗舰型号,Terra 是平衡型模型,Luna 是最便宜的版本。OpenAI 称 Terra 的性能接近 GPT-5.5,但成本只有一半,而 Luna 面向更低成本的使用场景。

这个系列还提供 “max” 模式用于更深度推理,以及 “ultra” 模式,将复杂任务分配给并行运行的子代理。基准测试方面,OpenAI 表示 Sol 在代理式编程上领先,并且在网络安全任务中表现强,同时消耗的 token 更少。OpenAI 还提到,Sol 在 GeneBench v1、ExploitBench 和 ExploitGym 上都有不错表现,但它仍低于公司定义的 “Cyber Critical” 阈值,因为它更擅长发现和修复漏洞,而不是独立执行完整的自动化攻击。OpenAI 同时公布了定价:Sol 每百万 token 输入 5 美元、输出 30 美元,Terra 和 Luna 则更便宜,并表示 Sol 将在 7 月登陆 Cerebras,速度最高可达每秒 750 token。

OpenAI 推出受限预览的 GPT-5.6 Sol

资讯正文

OpenAI 的 GPT-5.6 Sol 上线,旨在在其称之为不可持续的政府访问规则下,与 Claude Mythos 展开竞争

要点

- OpenAI 新的 GPT-5.6 代包含旗舰型号 Sol,以及两个更便宜的层级 Terra 和 Luna。

- Sol 在各项基准测试中与 Anthropic 的 Claude Mythos 5 持平或更胜一筹,在代理式编码方面优势明显,在网络安全方面的 token 效率也更高。

- 目前,美国政府正限制仅向少数合作伙伴开放访问。OpenAI 表示,这一政策伤害了开发者和企业。

OpenAI 新旗舰 GPT-5.6 Sol 声称在代理式编码方面领先 Anthropic 的 Claude Mythos,并在网络安全上与其旗鼓相当。目前,访问权限仍仅限于少数合作伙伴。

OpenAI 已发布 GPT-5.6 Sol,这是一个全新的模型代,旨在与 Claude 的 Mythos 系列竞争。此次有限预览仅通过 API 和 Codex 向部分合作伙伴开放,且是根据美国政府的明确指示进行的。此前,同一政府曾将 Anthropic 的 Mythos 系列模型 Fable 5 下架。

OpenAI 对自己的不满毫不掩饰。“我们不认为这种政府访问流程应该成为长期默认做法。它让最好的工具无法被用户、开发者、企业、网络安全防御者以及需要它们的全球合作伙伴使用。”

GPT-5.6 还带来了一种新的分层命名方案,很像 Claude 的风格。数字(x.6)表示代际,而 Sol、Terra 和 Luna 则是可以独立演进的固定性能层级。Sol 是旗舰型号。Terra 以一半的成本匹配 GPT-5.5。Luna 则是预算型选项。此外,还有“max”模式,用于更深度的推理;以及“ultra”模式,可将复杂任务分派给并行运行的子代理。

Sol 在代理式编码方面略胜 Claude Mythos

Sol 在生物学领域也有所提升。在 GeneBench v1 上,这是一项面向基因组学和定量生物学的基准测试,它击败了 GPT-5.5(最佳情况 30%,对比 22%),同时消耗的 token 更少。

在 ExploitBench 上,这是一个测试 AI 代理如何在谷歌 V8 JavaScript 引擎中发现并利用真实安全漏洞、直至实现完整代码执行的基准,OpenAI 表示,Sol 的表现与 Mythos Preview 持平,但输出 token 数量大约只有其三分之一。

在由加州大学伯克利分校研究人员与 OpenAI 及其他实验室共同构建的 ExploitGym 上,随着推理投入增加,全部三款 GPT-5.6 模型的表现都更好。这表明通过增加算力仍有进一步扩展的空间。该基准目前尚无 Claude 的数据。

OpenAI 称 Sol 是其迄今最强的网络安全模型,但将其定位为防御者,而非攻击者。公司表示,这款模型在发现并修复漏洞方面表现更强,但并不擅长独立执行完整的端到端攻击。Mythos 则在另一项基准中做到了这一点。

在与 Chromium 和 Firefox 的测试中,Sol 发现了漏洞和利用原语,但从未生成自主的完整攻击链利用。OpenAI 表示,GPT-5.6 Sol 仍低于其 Preparedness Framework 中的“Cyber Critical”门槛。

定价、可用性,以及 7 月在 Cerebras 上线

按每百万 token 计,OpenAI 对 Sol 的输入收费为 5 美元、输出收费为 30 美元;Terra 分别为 2.5 美元和 15 美元;Luna 则为 1 美元和 6 美元。该公司还改进了提示缓存系统,加入了明确的缓存断点,并保证最低存续时间为 30 分钟。缓存写入的费用是常规输入价格的 1.25 倍。缓存读取仍可享受 90% 的折扣。

由于 Sol 在多个基准测试中使用更少的 token 就能与竞争对手打平甚至超越,按任务计算的实际成本最终可能会低于前几代产品。这将对“AI 模型每发布一代就更贵”的趋势形成反击——这也是近来经常受到批评的一点,同时也是相较于更便宜的中国模型的一个竞争弱点。

Sol 预计将于 7 月在 Cerebras 上线,速度最高可达每秒 750 个 token。

来源与参考

  1. 原始链接
  2. OpenAI's GPT-5.6 Sol launches to rival Claude Mythos under government access rules it calls unsustainable

收录于 2026-06-27