Claude Sonnet 5 掩盖了更高的实际成本

The Decoder·7月1日 19:12 UTC·作者 Matthias Bastian

关键信息

Artificial Analysis 表示，Sonnet 5 在 Intelligence Index 上得分 53 分，与 GPT-5.5（high）并列第五，而 Sonnet 4.6 的得分为 47 分。尽管官方标价仍是每百万输入 token 3 美元、每百万输出 token 15 美元，但报告称，Sonnet 5 完成一项平均 Intelligence Index 任务的成本为 2.29 美元，高于 Opus 4.8 约 1.97 美元。

资讯摘要

文章认为，Claude Sonnet 5 延续了 Anthropic 的一个模式：表面上的 token 价格没有变化，但模型的实际使用成本却变高了。Artificial Analysis 在 Sonnet 5 正式发布前对其进行了评测，并将它纳入 Intelligence Index。结果显示，Sonnet 5 的峰值得分为 53 分，与 GPT-5.5（high）并列第五。排在它前面的四个模型分别是 GPT-5.5（xhigh）、Opus 4.7、Opus 4.8 和 Claude Fable 5，后者在文章发布时重新恢复为一般可用状态。相比 Sonnet 4.6 的 47 分，Sonnet 5 提升了 6 分，但它为了达到这个成绩消耗了更多 token。

按官方定价，Sonnet 5 仍然是每百万输入 token 3 美元、每百万输出 token 15 美元，而 Opus 4.8 的标价是 5 美元和 25 美元。可是在 Artificial Analysis 的测算中，Sonnet 5 完成一项平均 Intelligence Index 任务的成本为 2.29 美元，而 Opus 4.8 约为 1.97 美元。Anthropic 还在 9 月 1 日前提供每百万 token 2 美元和 10 美元的促销价，但该分析使用的是常规价格。文章同时指出，Sonnet 5 在一些偏代理式的任务上有明显进步，例如 Terminal-Bench v2.1、Humanity’s Last Exam 和 SciCode，但在更偏推理和知识密集型的测试中，它仍然落后于更大的模型。

资讯正文

Claude Sonnet 5 延续了 Anthropic 一贯的做法：把涨价藏在不变的 token 费率背后

在一项独立测试中，Claude Sonnet 5 排名第五，并在一些基于 agent 的任务上击败了更昂贵的 Opus 4.8。不过，它在 token 消耗上的大幅增加，使这款模型按单任务计算的成本高于 Anthropic 之前的旗舰模型。

Artificial Analysis 在 Claude Sonnet 5 发布前对其进行了评估，并将其纳入 Intelligence Index。Sonnet 5 在峰值表现中获得 53 分，与 GPT-5.5（high）并列第五。排在它前面的有四个模型：GPT-5.5（xhigh）55 分、Opus 4.7 54 分、Opus 4.8 56 分，以及 Claude Fable 5——这款模型今天再次恢复为普遍可用状态——60 分。

这比 Sonnet 4.6 的 47 分提高了 6 分，但 Sonnet 5 为此消耗了远更多的 token。

相同的 token 价格，实际成本却翻倍

从纸面上看，Sonnet 5 保持了与前代相同的 token 价格：每百万输入 token 3 美元、每百万输出 token 15 美元，而 Opus 4.8 则分别是 5 美元和 25 美元。不过，按照 Artificial Analysis 的数据，在 Intelligence Index 中，一项平均任务使用 Sonnet 5 的成本为 2.29 美元，而使用 Opus 4.8 约为 1.97 美元。

Anthropic 一直在 9 月 1 日前提供促销费率，每百万 token 2 美元或 10 美元，但 Artificial Analysis 的结果是基于常规价格计算的。

复杂推理仍暴露出 Sonnet 5 的局限

在推理和知识密集型基准测试中，Sonnet 5 仍然不及更大的模型。在 CritPt 上，这是一项来自阿贡国家实验室和伊利诺伊大学的前沿物理推理测试，它得分 17%。这比前代高出 14 个百分点，但仍低于在更高配置下运行的 GLM-5.2、Claude Opus、Fable 和 GPT-5.5。

在其他测试中，Sonnet 5 相比 Sonnet 4.6 有明显提升：Terminal-Bench v2.1 提高 9 分，Humanity's Last Exam 提高 10 分，SciCode 提高 7 分。其余评测的分数大致保持不变。

Anthropic 持续涨价，却并不明说

Anthropic 的模型一代比一代更贵，有时涨幅还非常明显，但官方价目表并没有反映这一点。在中端市场——也就是 Sonnet 所在的区间——当 Deepseek V4 Pro 和 GLM-5.2 这样的中国竞争对手以远低得多的成本提供有竞争力的性能时，这种隐性成本上升就很难令人接受。

AI 提供商需要更透明的定价方式，例如按标准化任务或真实世界知识工作岗位来计算成本，而不是那些已经失去意义的原始 token 价格。

来源与参考

收录于 2026-07-02