Snowflake 编码基准中 GLM-5.2 对比 Opus 4.7
The Decoder··作者 Matthias Bastian
关键信息
Opus 4.7 的首次尝试准确率更高,达到 53.7%,而 GLM-5.2 为 47.6%;它也更高效,平均每个任务 80 次迭代,而 GLM 为 99 次。尽管如此,GLM-5.2 的价格要低得多,输出 token 每百万仅 4.40 美元,而 Opus 4.7 为 25 美元。
资讯摘要
Snowflake 首席执行官 Sridhar Ramaswamy 公布了一项手工编程基准测试结果,对比了智谱的中国模型 GLM-5.2 与 Anthropic 的 Opus 4.7。该测试包含 103 个编程任务,要求代码同时适用于 DuckDB 和 Snowflake,每个模型在每个任务上都有三次尝试机会。在这个设定下,两者的总体表现几乎持平:GLM-5.2 解出了 66% 的任务,Opus 4.7 解出了 67%。但如果只看第一次尝试,差距就更明显了:Opus 的首次成功率是 53.7%,而 GLM-5.2 只有 47.6%。GLM 的效率也更低,平均每个任务需要 99 次迭代,并消耗 8.6 亿个 token,而 Opus 只有 80 次迭代和 4.39 亿个 token。
Ramaswamy 认为,GLM 的优势在于能可靠地同时验证 DuckDB 和 Snowflake 上的代码,在某些任务上甚至只有它能完成。他也指出,GLM 有时会过度检查错误的方向并过早放弃,例如有一个任务它在 24 分钟内进行了 411 次工具调用,检查了行数、分布、空值和列类型,却三次都失败了。尽管如此,价格差距非常大:智谱给出的 GLM-5.2 价格是每百万输入 token 1.40 美元、每百万输出 token 4.40 美元,而 Opus 4.7 分别是 5 美元和 25 美元。文章认为,这种差价可能会对西方 AI 公司形成真正的价格压力,尤其是在编程这个它们重点押注的核心场景中。

资讯正文
Snowflake 首席执行官认为 GLM-5.2 以远低于成本的价格,能与 Opus 4.7 竞争
要点
- 在 Snowflake 进行的一项真实世界编程基准测试中,中国 AI 模型 GLM-5.2 与 Anthropic 的 Opus-4.7 在每个任务有三次尝试机会时表现几乎完全相同,分别解决了 66% 和 67% 的问题。
- 在首次尝试准确率上,Opus 以 53.7% 领先于 GLM 的 47.6%;而且整体效率更高——GLM 平均每个任务需要 99 次迭代,Opus 只需 80 次,且消耗的 token 几乎是后者的两倍。
- 尽管存在这些效率差距,GLM-5.2 的价格却低得惊人,每百万输出 token 仅 4.40 美元,这带来了巨大的价格压力,可能挑战 OpenAI 等西方 AI 公司的高估值。
Snowflake 在一项动手基准测试中对比了 GLM-5.2 和 Opus 4.7。这款中国模型表现不俗。
测试涵盖 103 个任务,每个任务运行三次,模型必须编写能够同时在 DuckDB 和 Snowflake 上运行的代码。当每个模型针对每个任务获得三次尝试时,两者几乎不相上下:分别解决了 66% 和 67% 的任务。
Snowflake 首席执行官 Sridhar Ramaswamy 表示,GLM 的优势在于能可靠地同时在两个平台——DuckDB 和 Snowflake——上验证代码。也正因如此,只有 GLM 才能解决某些任务。
它的弱点在于过早放弃,以及过度检查错误的东西。在一个任务中,GLM 在 24 分钟内发起了 411 次工具调用,检查行数、分布、空值和列类型,但仍然三次尝试全部失败。Opus 用 49 次调用、9 分钟就解决了同一任务。
Ramaswamy 说,“GLM 生成更干净代码”这一说法并不成立。更多检查并不会带来更正确的结果。不过,该团队对 GLM-5.2 仍然感到兴奋,并希望让客户能够使用它。
中国的定价正在对西方 AI 泡沫施加真正压力
GLM 较高的 token 使用量在一定程度上削弱了这一价格差距。但 Anthropic 和 OpenAI 正面临严重的定价压力,而这恰恰发生在编码这一关键场景中——这是两家西方 AI 实验室都押注的旗舰用例。
如果这种压力放缓收入增长,甚至更糟,导致收入萎缩,那么本已被高估的 AI 市场将面临真正的压力测试。OpenAI 和 Anthropic 的估值建立在收入将继续快速攀升的假设之上。而这些估值又与数十亿美元的 AI 基础设施投入密切相关,从数据中心到芯片订单皆是如此。
订阅以获取最新内容
来源与参考
收录于 2026-06-25