OpenAI 推出受限预览的 GPT-5.6 Sol

The Decoder·6月27日 02:30 UTC·作者 Matthias Bastian

关键信息

OpenAI 表示，Sol 在多个基准测试中与 Claude Mythos 5 持平或更强，并在代理式编程方面明显领先，在网络安全任务中也更节省 token。Terra 被定位为更便宜、性能接近 GPT-5.5 的型号，Luna 则是最低成本选项；OpenAI 还加入了“max”和“ultra”模式，用于更深度推理和并行子代理执行。

资讯摘要

OpenAI 推出了 GPT-5.6 Sol，这是一个旨在与 Anthropic Claude Mythos 系列竞争的新一代模型。当前发布仍处于受限阶段，只通过 API 和 Codex 向少数合作伙伴开放，OpenAI 说这是在美国政府明确要求下进行的。公司还表示，这种访问控制不应成为长期默认做法，因为它会让用户、开发者、企业、网络防御者和全球合作伙伴无法及时获得最强工具。GPT-5.6 还引入了新的分层命名方式，其中 Sol 是旗舰型号，Terra 是平衡型模型，Luna 是最便宜的版本。OpenAI 称 Terra 的性能接近 GPT-5.5，但成本只有一半，而 Luna 面向更低成本的使用场景。

这个系列还提供 “max” 模式用于更深度推理，以及 “ultra” 模式，将复杂任务分配给并行运行的子代理。基准测试方面，OpenAI 表示 Sol 在代理式编程上领先，并且在网络安全任务中表现强，同时消耗的 token 更少。OpenAI 还提到，Sol 在 GeneBench v1、ExploitBench 和 ExploitGym 上都有不错表现，但它仍低于公司定义的 “Cyber Critical” 阈值，因为它更擅长发现和修复漏洞，而不是独立执行完整的自动化攻击。OpenAI 同时公布了定价：Sol 每百万 token 输入 5 美元、输出 30 美元，Terra 和 Luna 则更便宜，并表示 Sol 将在 7 月登陆 Cerebras，速度最高可达每秒 750 token。

资讯正文

OpenAI 的 GPT-5.6 Sol 上线，旨在在其称之为不可持续的政府访问规则下，与 Claude Mythos 展开竞争

要点

- OpenAI 新的 GPT-5.6 代包含旗舰型号 Sol，以及两个更便宜的层级 Terra 和 Luna。

- Sol 在各项基准测试中与 Anthropic 的 Claude Mythos 5 持平或更胜一筹，在代理式编码方面优势明显，在网络安全方面的 token 效率也更高。

- 目前，美国政府正限制仅向少数合作伙伴开放访问。OpenAI 表示，这一政策伤害了开发者和企业。

OpenAI 新旗舰 GPT-5.6 Sol 声称在代理式编码方面领先 Anthropic 的 Claude Mythos，并在网络安全上与其旗鼓相当。目前，访问权限仍仅限于少数合作伙伴。

OpenAI 已发布 GPT-5.6 Sol，这是一个全新的模型代，旨在与 Claude 的 Mythos 系列竞争。此次有限预览仅通过 API 和 Codex 向部分合作伙伴开放，且是根据美国政府的明确指示进行的。此前，同一政府曾将 Anthropic 的 Mythos 系列模型 Fable 5 下架。

OpenAI 对自己的不满毫不掩饰。“我们不认为这种政府访问流程应该成为长期默认做法。它让最好的工具无法被用户、开发者、企业、网络安全防御者以及需要它们的全球合作伙伴使用。”

GPT-5.6 还带来了一种新的分层命名方案，很像 Claude 的风格。数字（x.6）表示代际，而 Sol、Terra 和 Luna 则是可以独立演进的固定性能层级。Sol 是旗舰型号。Terra 以一半的成本匹配 GPT-5.5。Luna 则是预算型选项。此外，还有“max”模式，用于更深度的推理；以及“ultra”模式，可将复杂任务分派给并行运行的子代理。

Sol 在代理式编码方面略胜 Claude Mythos

Sol 在生物学领域也有所提升。在 GeneBench v1 上，这是一项面向基因组学和定量生物学的基准测试，它击败了 GPT-5.5（最佳情况 30%，对比 22%），同时消耗的 token 更少。

在 ExploitBench 上，这是一个测试 AI 代理如何在谷歌 V8 JavaScript 引擎中发现并利用真实安全漏洞、直至实现完整代码执行的基准，OpenAI 表示，Sol 的表现与 Mythos Preview 持平，但输出 token 数量大约只有其三分之一。

在由加州大学伯克利分校研究人员与 OpenAI 及其他实验室共同构建的 ExploitGym 上，随着推理投入增加，全部三款 GPT-5.6 模型的表现都更好。这表明通过增加算力仍有进一步扩展的空间。该基准目前尚无 Claude 的数据。

OpenAI 称 Sol 是其迄今最强的网络安全模型，但将其定位为防御者，而非攻击者。公司表示，这款模型在发现并修复漏洞方面表现更强，但并不擅长独立执行完整的端到端攻击。Mythos 则在另一项基准中做到了这一点。

在与 Chromium 和 Firefox 的测试中，Sol 发现了漏洞和利用原语，但从未生成自主的完整攻击链利用。OpenAI 表示，GPT-5.6 Sol 仍低于其 Preparedness Framework 中的“Cyber Critical”门槛。

定价、可用性，以及 7 月在 Cerebras 上线

按每百万 token 计，OpenAI 对 Sol 的输入收费为 5 美元、输出收费为 30 美元；Terra 分别为 2.5 美元和 15 美元；Luna 则为 1 美元和 6 美元。该公司还改进了提示缓存系统，加入了明确的缓存断点，并保证最低存续时间为 30 分钟。缓存写入的费用是常规输入价格的 1.25 倍。缓存读取仍可享受 90% 的折扣。

由于 Sol 在多个基准测试中使用更少的 token 就能与竞争对手打平甚至超越，按任务计算的实际成本最终可能会低于前几代产品。这将对“AI 模型每发布一代就更贵”的趋势形成反击——这也是近来经常受到批评的一点，同时也是相较于更便宜的中国模型的一个竞争弱点。

Sol 预计将于 7 月在 Cerebras 上线，速度最高可达每秒 750 个 token。

来源与参考

收录于 2026-06-27