Snowflake 编码基准中 GLM-5.2 对比 Opus 4.7

The Decoder·6月25日 01:07 UTC·作者 Matthias Bastian

关键信息

Opus 4.7 的首次尝试准确率更高，达到 53.7%，而 GLM-5.2 为 47.6%；它也更高效，平均每个任务 80 次迭代，而 GLM 为 99 次。尽管如此，GLM-5.2 的价格要低得多，输出 token 每百万仅 4.40 美元，而 Opus 4.7 为 25 美元。

资讯摘要

Snowflake 首席执行官 Sridhar Ramaswamy 公布了一项手工编程基准测试结果，对比了智谱的中国模型 GLM-5.2 与 Anthropic 的 Opus 4.7。该测试包含 103 个编程任务，要求代码同时适用于 DuckDB 和 Snowflake，每个模型在每个任务上都有三次尝试机会。在这个设定下，两者的总体表现几乎持平：GLM-5.2 解出了 66% 的任务，Opus 4.7 解出了 67%。但如果只看第一次尝试，差距就更明显了：Opus 的首次成功率是 53.7%，而 GLM-5.2 只有 47.6%。GLM 的效率也更低，平均每个任务需要 99 次迭代，并消耗 8.6 亿个 token，而 Opus 只有 80 次迭代和 4.39 亿个 token。

Ramaswamy 认为，GLM 的优势在于能可靠地同时验证 DuckDB 和 Snowflake 上的代码，在某些任务上甚至只有它能完成。他也指出，GLM 有时会过度检查错误的方向并过早放弃，例如有一个任务它在 24 分钟内进行了 411 次工具调用，检查了行数、分布、空值和列类型，却三次都失败了。尽管如此，价格差距非常大：智谱给出的 GLM-5.2 价格是每百万输入 token 1.40 美元、每百万输出 token 4.40 美元，而 Opus 4.7 分别是 5 美元和 25 美元。文章认为，这种差价可能会对西方 AI 公司形成真正的价格压力，尤其是在编程这个它们重点押注的核心场景中。

资讯正文

Snowflake 首席执行官认为 GLM-5.2 以远低于成本的价格，能与 Opus 4.7 竞争

要点

- 在 Snowflake 进行的一项真实世界编程基准测试中，中国 AI 模型 GLM-5.2 与 Anthropic 的 Opus-4.7 在每个任务有三次尝试机会时表现几乎完全相同，分别解决了 66% 和 67% 的问题。

- 在首次尝试准确率上，Opus 以 53.7% 领先于 GLM 的 47.6%；而且整体效率更高——GLM 平均每个任务需要 99 次迭代，Opus 只需 80 次，且消耗的 token 几乎是后者的两倍。

- 尽管存在这些效率差距，GLM-5.2 的价格却低得惊人，每百万输出 token 仅 4.40 美元，这带来了巨大的价格压力，可能挑战 OpenAI 等西方 AI 公司的高估值。

Snowflake 在一项动手基准测试中对比了 GLM-5.2 和 Opus 4.7。这款中国模型表现不俗。

测试涵盖 103 个任务，每个任务运行三次，模型必须编写能够同时在 DuckDB 和 Snowflake 上运行的代码。当每个模型针对每个任务获得三次尝试时，两者几乎不相上下：分别解决了 66% 和 67% 的任务。

Snowflake 首席执行官 Sridhar Ramaswamy 表示，GLM 的优势在于能可靠地同时在两个平台——DuckDB 和 Snowflake——上验证代码。也正因如此，只有 GLM 才能解决某些任务。

它的弱点在于过早放弃，以及过度检查错误的东西。在一个任务中，GLM 在 24 分钟内发起了 411 次工具调用，检查行数、分布、空值和列类型，但仍然三次尝试全部失败。Opus 用 49 次调用、9 分钟就解决了同一任务。

Ramaswamy 说，“GLM 生成更干净代码”这一说法并不成立。更多检查并不会带来更正确的结果。不过，该团队对 GLM-5.2 仍然感到兴奋，并希望让客户能够使用它。

中国的定价正在对西方 AI 泡沫施加真正压力

GLM 较高的 token 使用量在一定程度上削弱了这一价格差距。但 Anthropic 和 OpenAI 正面临严重的定价压力，而这恰恰发生在编码这一关键场景中——这是两家西方 AI 实验室都押注的旗舰用例。

如果这种压力放缓收入增长，甚至更糟，导致收入萎缩，那么本已被高估的 AI 市场将面临真正的压力测试。OpenAI 和 Anthropic 的估值建立在收入将继续快速攀升的假设之上。而这些估值又与数十亿美元的 AI 基础设施投入密切相关，从数据中心到芯片订单皆是如此。

订阅以获取最新内容

来源与参考

收录于 2026-06-25