Anthropic 发布 Claude Opus 4.8

The Decoder·5月29日 05:20 UTC·作者 Matthias Bastian

关键信息

Anthropic 表示，Opus 4.8 在不确定性表达上更诚实，包括更少无依据的说法，以及在代码评估中比 Opus 4.7 更少漏掉 bug。API 定价保持不变，输入每百万 token 5 美元、输出每百万 token 25 美元，而 Fast Mode 现在更便宜，并以 2.5 倍速度运行。

资讯摘要

Anthropic 推出了 Claude Opus 4.8，这是其最新的旗舰模型，并将这次发布描述为相较于 Opus 4.7 “适度但切实”的提升。公司称，这一版本在大多数基准测试中处于领先位置，并且与 OpenAI 的 GPT-5.5 相比表现更好。此次发布的一个重点是“更诚实”：Anthropic 表示，早期测试者发现 Opus 4.8 更愿意标记不确定性，也更少提出缺乏依据的说法。在代码评估中，它让 bug 漏过去而不作说明的情况，据称比 Opus 4.7 少了约四倍。Anthropic 还表示，该模型在支持用户自主性等亲社会特征上达到了新高，而欺骗尝试和其他不一致行为则处于 Claude Mythos 级别。除了模型本身，Anthropic 还引入了动态工作流，允许 Claude 规划任务，并在一次会话中启动数百个并行子代理。

公司表示，搭配 Opus 4.8 的 Claude Code 可以处理覆盖数十万行代码的全仓库迁移，从规划一直到合并，且该功能面向 Enterprise、Team 和 Max 计划开放。Claude.ai 和 Cowork 现在在模型选择器旁提供了努力控制，用户可以决定模型在回答中投入多少计算资源。Opus 4.8 默认是 high，但 Anthropic 建议在更困难的任务上使用 extra 或 max，这些模式会消耗更多 token，但结果通常更好。标准 API 的价格保持不变，而 Fast Mode 现在只需早期模型价格的三分之一，并以 2.5 倍速度运行。Artificial Analysis 也认为 Opus 4.8 的实际运行成本可能更低，因为在 GDPval-AA 上，它比 Opus 4.7 所需的任务尝试次数更少、输出 token 更少，但它仍然比 GPT-5.5 使用更多的尝试次数。

资讯正文

Anthropic 推出 Claude Opus 4.8，称其为“幅度不大但切实可感的改进”，并在大多数基准测试中超过 GPT-5.5

要点

- Anthropic 发布了 Claude Opus 4.8，这是一款新的 AI 语言模型。公司称，它在大多数基准测试中都优于 OpenAI 的 GPT-5.5 等竞争对手，同时也更善于表达自身的不确定性。

- Anthropic 还引入了动态工作流，使其能够调度任务并启动数百个并行子代理，同时增加了一项新控制，允许用户决定 AI 在生成回复时应投入多少努力。

- API 定价与前代 Opus 4.7 保持不变，为每百万输入 token 5 美元、每百万输出 token 25 美元。

Anthropic 的最新旗舰模型 Claude Opus 4.8 在大多数基准测试中领先，并且被设计得更愿意坦诚自己的错误。

少一些虚假的进步，多一些诚实

Anthropic 将模型在诚实性方面的提升称作最显著的升级之一。AI 模型有个毛病：经常过早下结论，并宣称一些经不起仔细检验的进展。这是一个普遍存在的问题。

Anthropic 表示：“早期测试者报告称，Opus 4.8 更有可能标记其工作中的不确定性，也更不容易做出缺乏依据的断言。” 公司用自己的编码评测支持了这一说法：在这些评测中，该模型漏掉 bug 却不作评论的频率，比 Opus 4.7 低了大约四倍。

该模型在支持用户自主性等亲社会特质方面也创下新高。Anthropic 说，欺骗尝试以及其他不对齐行为，其水平据称达到了 Claude Mythos 级别。详细信息见《Claude Opus 4.8 System Card》。公司表示，首批 Mythos 级模型预计将在接下来的几周内，在所有安全措施到位后向所有客户推出。

动态工作流和努力控制抢尽风头

Anthropic 与该模型一同推出的新功能，可能比模型本身的更新更重要；公司将这次模型更新称为“幅度不大但切实可感”。

其中最重要的是“动态工作流”。该模型可以规划一项任务，然后在单次会话中启动数百个并行子代理。Anthropic 表示，搭载 Opus 4.8 的 Claude Code 现在可以处理跨整个代码库的迁移，规模可达数十万行，从规划一直到合并。该功能适用于 Enterprise、Team 和 Max 套餐。

在 claude.ai 和 Cowork 中，模型选择器旁边现在有一个“努力程度”控制项。它让你决定 Claude 在某个回复上要投入多大力度。把它调高，可以获得更深入的思考和更好的结果；调低，则能得到更快的回答，并且消耗更少的速率限制。

Opus 4.8 默认设为“high”。对于棘手任务，Anthropic 推荐使用“extra”（在 Claude Code 中称为“xhigh”）或“max”。这些模式会消耗更多 token，但 Anthropic 表示，Claude Code 用户更高的速率限制有助于抵消这一点。Anthropic 的建议是：只要选择你觉得适合该任务的级别即可。

API 价格保持不变，Fast Mode 更便宜了

Fast Mode 以 2.5 倍速度运行 Opus 4.8，现在的费用只有早期模型的三分之一。定价为每百万输入 token 10 美元、每百万输出 token 50 美元。

运行 Opus 4.8 的实际成本可能会更低

据 Artificial Analysis 称，Opus 4.8 可能会缓解 4.7 带来的那次价格上涨。在 GDPval-AA 基准测试中——该基准测试考察真实世界的知识工作任务——该模型每项任务所需的轮次比 Opus 4.7 少 15%，输出 token 也少 35%。

在实际应用中，这意味着成本可能会明显更低。不过，Opus 4.8 仍然比 OpenAI 的 GPT-5.5（排名第二的模型）大约多使用 30% 的轮次。

在“max”努力等级下，Opus 4.8 在 GDÜVvall-AA 上获得了 1,890 分，比 Opus 4.7 高 137 分，也比 GPT-5.5 高 121 分；与 GPT-5.5 进行一对一对比时，其胜率约为 67%。

来源与参考

收录于 2026-05-29