Anthropic 发布 Claude Opus 4.8

The Decoder··作者 Matthias Bastian

关键信息

Anthropic 表示,Opus 4.8 在不确定性表达上更诚实,包括更少无依据的说法,以及在代码评估中比 Opus 4.7 更少漏掉 bug。API 定价保持不变,输入每百万 token 5 美元、输出每百万 token 25 美元,而 Fast Mode 现在更便宜,并以 2.5 倍速度运行。

资讯摘要

Anthropic 推出了 Claude Opus 4.8,这是其最新的旗舰模型,并将这次发布描述为相较于 Opus 4.7 “适度但切实”的提升。公司称,这一版本在大多数基准测试中处于领先位置,并且与 OpenAI 的 GPT-5.5 相比表现更好。此次发布的一个重点是“更诚实”:Anthropic 表示,早期测试者发现 Opus 4.8 更愿意标记不确定性,也更少提出缺乏依据的说法。在代码评估中,它让 bug 漏过去而不作说明的情况,据称比 Opus 4.7 少了约四倍。Anthropic 还表示,该模型在支持用户自主性等亲社会特征上达到了新高,而欺骗尝试和其他不一致行为则处于 Claude Mythos 级别。除了模型本身,Anthropic 还引入了动态工作流,允许 Claude 规划任务,并在一次会话中启动数百个并行子代理。

公司表示,搭配 Opus 4.8 的 Claude Code 可以处理覆盖数十万行代码的全仓库迁移,从规划一直到合并,且该功能面向 Enterprise、Team 和 Max 计划开放。Claude.ai 和 Cowork 现在在模型选择器旁提供了努力控制,用户可以决定模型在回答中投入多少计算资源。Opus 4.8 默认是 high,但 Anthropic 建议在更困难的任务上使用 extra 或 max,这些模式会消耗更多 token,但结果通常更好。标准 API 的价格保持不变,而 Fast Mode 现在只需早期模型价格的三分之一,并以 2.5 倍速度运行。Artificial Analysis 也认为 Opus 4.8 的实际运行成本可能更低,因为在 GDPval-AA 上,它比 Opus 4.7 所需的任务尝试次数更少、输出 token 更少,但它仍然比 GPT-5.5 使用更多的尝试次数。

Anthropic 发布 Claude Opus 4.8

资讯正文

Anthropic 推出 Claude Opus 4.8,称其为“幅度不大但切实可感的改进”,并在大多数基准测试中超过 GPT-5.5

要点

- Anthropic 发布了 Claude Opus 4.8,这是一款新的 AI 语言模型。公司称,它在大多数基准测试中都优于 OpenAI 的 GPT-5.5 等竞争对手,同时也更善于表达自身的不确定性。

- Anthropic 还引入了动态工作流,使其能够调度任务并启动数百个并行子代理,同时增加了一项新控制,允许用户决定 AI 在生成回复时应投入多少努力。

- API 定价与前代 Opus 4.7 保持不变,为每百万输入 token 5 美元、每百万输出 token 25 美元。

Anthropic 的最新旗舰模型 Claude Opus 4.8 在大多数基准测试中领先,并且被设计得更愿意坦诚自己的错误。

少一些虚假的进步,多一些诚实

Anthropic 将模型在诚实性方面的提升称作最显著的升级之一。AI 模型有个毛病:经常过早下结论,并宣称一些经不起仔细检验的进展。这是一个普遍存在的问题。

Anthropic 表示:“早期测试者报告称,Opus 4.8 更有可能标记其工作中的不确定性,也更不容易做出缺乏依据的断言。” 公司用自己的编码评测支持了这一说法:在这些评测中,该模型漏掉 bug 却不作评论的频率,比 Opus 4.7 低了大约四倍。

该模型在支持用户自主性等亲社会特质方面也创下新高。Anthropic 说,欺骗尝试以及其他不对齐行为,其水平据称达到了 Claude Mythos 级别。详细信息见《Claude Opus 4.8 System Card》。公司表示,首批 Mythos 级模型预计将在接下来的几周内,在所有安全措施到位后向所有客户推出。

动态工作流和努力控制抢尽风头

Anthropic 与该模型一同推出的新功能,可能比模型本身的更新更重要;公司将这次模型更新称为“幅度不大但切实可感”。

其中最重要的是“动态工作流”。该模型可以规划一项任务,然后在单次会话中启动数百个并行子代理。Anthropic 表示,搭载 Opus 4.8 的 Claude Code 现在可以处理跨整个代码库的迁移,规模可达数十万行,从规划一直到合并。该功能适用于 Enterprise、Team 和 Max 套餐。

在 claude.ai 和 Cowork 中,模型选择器旁边现在有一个“努力程度”控制项。它让你决定 Claude 在某个回复上要投入多大力度。把它调高,可以获得更深入的思考和更好的结果;调低,则能得到更快的回答,并且消耗更少的速率限制。

Opus 4.8 默认设为“high”。对于棘手任务,Anthropic 推荐使用“extra”(在 Claude Code 中称为“xhigh”)或“max”。这些模式会消耗更多 token,但 Anthropic 表示,Claude Code 用户更高的速率限制有助于抵消这一点。Anthropic 的建议是:只要选择你觉得适合该任务的级别即可。

API 价格保持不变,Fast Mode 更便宜了

Fast Mode 以 2.5 倍速度运行 Opus 4.8,现在的费用只有早期模型的三分之一。定价为每百万输入 token 10 美元、每百万输出 token 50 美元。

运行 Opus 4.8 的实际成本可能会更低

据 Artificial Analysis 称,Opus 4.8 可能会缓解 4.7 带来的那次价格上涨。在 GDPval-AA 基准测试中——该基准测试考察真实世界的知识工作任务——该模型每项任务所需的轮次比 Opus 4.7 少 15%,输出 token 也少 35%。

在实际应用中,这意味着成本可能会明显更低。不过,Opus 4.8 仍然比 OpenAI 的 GPT-5.5(排名第二的模型)大约多使用 30% 的轮次。

在“max”努力等级下,Opus 4.8 在 GDÜVvall-AA 上获得了 1,890 分,比 Opus 4.7 高 137 分,也比 GPT-5.5 高 121 分;与 GPT-5.5 进行一对一对比时,其胜率约为 67%。

来源与参考

  1. 原始链接
  2. Anthropic ships Claude Opus 4.8 as a "modest but tangible improvement" that tops GPT-5.5 in most benchmarks

收录于 2026-05-29