Claude Sonnet 5 掩盖了更高的实际成本
The Decoder··作者 Matthias Bastian
关键信息
Artificial Analysis 表示,Sonnet 5 在 Intelligence Index 上得分 53 分,与 GPT-5.5(high)并列第五,而 Sonnet 4.6 的得分为 47 分。尽管官方标价仍是每百万输入 token 3 美元、每百万输出 token 15 美元,但报告称,Sonnet 5 完成一项平均 Intelligence Index 任务的成本为 2.29 美元,高于 Opus 4.8 约 1.97 美元。
资讯摘要
文章认为,Claude Sonnet 5 延续了 Anthropic 的一个模式:表面上的 token 价格没有变化,但模型的实际使用成本却变高了。Artificial Analysis 在 Sonnet 5 正式发布前对其进行了评测,并将它纳入 Intelligence Index。结果显示,Sonnet 5 的峰值得分为 53 分,与 GPT-5.5(high)并列第五。排在它前面的四个模型分别是 GPT-5.5(xhigh)、Opus 4.7、Opus 4.8 和 Claude Fable 5,后者在文章发布时重新恢复为一般可用状态。相比 Sonnet 4.6 的 47 分,Sonnet 5 提升了 6 分,但它为了达到这个成绩消耗了更多 token。
按官方定价,Sonnet 5 仍然是每百万输入 token 3 美元、每百万输出 token 15 美元,而 Opus 4.8 的标价是 5 美元和 25 美元。可是在 Artificial Analysis 的测算中,Sonnet 5 完成一项平均 Intelligence Index 任务的成本为 2.29 美元,而 Opus 4.8 约为 1.97 美元。Anthropic 还在 9 月 1 日前提供每百万 token 2 美元和 10 美元的促销价,但该分析使用的是常规价格。文章同时指出,Sonnet 5 在一些偏代理式的任务上有明显进步,例如 Terminal-Bench v2.1、Humanity’s Last Exam 和 SciCode,但在更偏推理和知识密集型的测试中,它仍然落后于更大的模型。

资讯正文
Claude Sonnet 5 延续了 Anthropic 一贯的做法:把涨价藏在不变的 token 费率背后
在一项独立测试中,Claude Sonnet 5 排名第五,并在一些基于 agent 的任务上击败了更昂贵的 Opus 4.8。不过,它在 token 消耗上的大幅增加,使这款模型按单任务计算的成本高于 Anthropic 之前的旗舰模型。
Artificial Analysis 在 Claude Sonnet 5 发布前对其进行了评估,并将其纳入 Intelligence Index。Sonnet 5 在峰值表现中获得 53 分,与 GPT-5.5(high)并列第五。排在它前面的有四个模型:GPT-5.5(xhigh)55 分、Opus 4.7 54 分、Opus 4.8 56 分,以及 Claude Fable 5——这款模型今天再次恢复为普遍可用状态——60 分。
这比 Sonnet 4.6 的 47 分提高了 6 分,但 Sonnet 5 为此消耗了远更多的 token。
相同的 token 价格,实际成本却翻倍
从纸面上看,Sonnet 5 保持了与前代相同的 token 价格:每百万输入 token 3 美元、每百万输出 token 15 美元,而 Opus 4.8 则分别是 5 美元和 25 美元。不过,按照 Artificial Analysis 的数据,在 Intelligence Index 中,一项平均任务使用 Sonnet 5 的成本为 2.29 美元,而使用 Opus 4.8 约为 1.97 美元。
Anthropic 一直在 9 月 1 日前提供促销费率,每百万 token 2 美元或 10 美元,但 Artificial Analysis 的结果是基于常规价格计算的。
复杂推理仍暴露出 Sonnet 5 的局限
在推理和知识密集型基准测试中,Sonnet 5 仍然不及更大的模型。在 CritPt 上,这是一项来自阿贡国家实验室和伊利诺伊大学的前沿物理推理测试,它得分 17%。这比前代高出 14 个百分点,但仍低于在更高配置下运行的 GLM-5.2、Claude Opus、Fable 和 GPT-5.5。
在其他测试中,Sonnet 5 相比 Sonnet 4.6 有明显提升:Terminal-Bench v2.1 提高 9 分,Humanity's Last Exam 提高 10 分,SciCode 提高 7 分。其余评测的分数大致保持不变。
Anthropic 持续涨价,却并不明说
Anthropic 的模型一代比一代更贵,有时涨幅还非常明显,但官方价目表并没有反映这一点。在中端市场——也就是 Sonnet 所在的区间——当 Deepseek V4 Pro 和 GLM-5.2 这样的中国竞争对手以远低得多的成本提供有竞争力的性能时,这种隐性成本上升就很难令人接受。
AI 提供商需要更透明的定价方式,例如按标准化任务或真实世界知识工作岗位来计算成本,而不是那些已经失去意义的原始 token 价格。
来源与参考
收录于 2026-07-02