GLM-5.2逼近闭源编码领先者

The Decoder··作者 Jonathan Kemper

关键信息

智谱AI表示,GLM-5.2 针对长程、智能体式编码场景进行了优化,包括大规模实现、自动化研究和复杂调试。该模型还引入了 IndexShare 以降低长上下文下的计算开销,并通过改进推测解码,使平均可接受的预测 token 数量提升约 20%。

资讯摘要

智谱AI发布了 GLM-5.2,并将其定位为面向长程任务的模型,适合持续数小时、涉及数千个步骤的工作。为支持这类场景,公司把上下文窗口扩展到 100 万 token,并重点用智能体式编码工作负载进行训练。智谱强调,真正困难的不是宣布一个很大的上下文窗口,而是在长时间、非结构化的编码会话中保持稳定可靠的表现。在 FrontierSWE 基准上,GLM-5.2 得分为 74.4%,仅比 Anthropic 的 Claude Opus 4.8 低 1 个百分点,同时略高于 OpenAI 的 GPT-5.5。在 PostTrainBench 上,它击败了 GPT-5.5 和 Opus 4.7,但仍落后于 Opus 4.8。到了难度更高的 SWE-Marathon,GLM-5.2 的表现就明显落后了,只拿到 Opus 4.8 大约一半的分数。

智谱还表示,用户可以调节模型的思考强度;在相近的 token 预算下,GLM-5.2 的编码能力明显强于 GLM-5.1。除了编码之外,该模型的综合表现较为分化:在 Humanity’s Last Exam 和 GPQA-Diamond 上明显落后于领先的闭源模型,但在 AIME 2026 上取得了 99.2% 的高分。第三方机构 Artificial Analysis 也确认了它相对前代的提升,将 GLM-5.2 在 Intelligence Index 上评为 51 分,使其成为当前最强的开源权重模型,并领先于 MiniMax M3、DeepSeek V4 Pro 和 Kimi K2.6。该机构还指出,GLM-5.2 在 GDPval-AA v2 上追平了专有的 GPT-5.5,但它消耗的 token 远高于开源竞品,因此在效率上并不占优。为了让超长上下文变得可用,智谱引入了名为 IndexShare 的技术,让四层 Transformer 共享同一个轻量级索引器,据称在 100 万 token 上下文下可将每个 token 的计算量降低 2.9 倍。公司还表示,通过对推测解码流程的多项调整,模型平均可接受更多预测 token,从而提升生成速度。

GLM-5.2逼近闭源编码领先者

资讯正文

智谱AI的GLM-5.2在编程马拉松中逼近闭源领头羊

中国AI实验室智谱AI发布了GLM-5.2,并在MIT许可证下提供稳定的100万token上下文窗口。在持续数小时的编码任务中,这款开源模型与Anthropic的Opus系列模型相比仅落后几个百分点。

智谱AI推出了GLM-5.2,将其定位为所谓的长周期任务工具——也就是会持续数小时、涉及成千上万道独立步骤的编码工作。为实现这一目标,公司将上下文窗口扩展到100万token,并将训练重点放在代理式编码场景上,例如大规模实现、自动化研究和复杂调试。

智谱AI在博客文章中写道:“100万上下文容易宣称,但要在真实工程压力下保持可靠得多难得多,”因为模型需要在漫长、非结构化的编码代理会话中维持质量。

只比最新的Opus模型低一个百分点

在FrontierSWE上,这一基准评测涵盖从数小时到数十小时不等的开放式工程项目,GLM-5.2得分为74.4%,仅比Anthropic的Claude Opus 4.8低1个百分点,且略高于OpenAI的GPT-5.5。

在PostTrainBench上,代理使用H100 GPU通过后训练改进小模型,GLM-5.2击败了GPT-5.5和Opus 4.7,再次位居第二,仅次于Opus 4.8。在SWE-Marathon上,这是一项超长周期基准,任务包括编译器构建和内核优化等高难度工作,差距就大得多了:GLM-5.2的得分只有Opus 4.8的一半。

Anthropic目前最强的模型Fable和Mythos并未纳入这些比较,因为Fable在发布后不久就被撤下,而Mythos也从未广泛公开发布。智谱AI表示,在这三项基准中,GLM-5.2仍然是最强的开源模型。

用户还可以调高或调低模型的思考强度。智谱AI称,在相近的token预算下,GLM-5.2的编码表现明显强于GLM-5.1。最高档位“Max”允许用户为最难的问题投入更多算力。

推理能力仍明显落后于闭源竞品

在Humanity's Last Exam上,根据基准表,GLM-5.2明显落后于Claude Opus 4.8和Gemini 3.1 Pro。后两者分别领先大约10个和5个百分点。GLM-5.2在科学问答基准GPQA-Diamond上的排名也落后于顶级闭源模型。数学则是另一回事。该模型在AIME 2026上拿下了99.2%的成绩。

编码之外的代理式任务则呈现出喜忧参半的局面。在工具使用测试MCP-Atlas上,GLM-5.2与Opus 4.8几乎打成平手。在Tool-Decathlon上,它则明显落后于Opus 4.8和GPT-5.5。

独立平台Artificial Analysis也证实了它相较前代的进步。在其Intelligence Index上,GLM-5.2得分51分,成为目前最强的开放权重模型。它明显领先于MiniMax M3、DeepSeek V4 Pro和Kimi K2.6。提升最大的部分出现在科学推理方面,而且相比前代,它的幻觉现象也略少一些。

在 GDPval-AA v2 上,Artificial Analysis 将其视为面向真实世界 agentic 任务的最佳指标,GLM-5.2 与专有的 GPT-5.5 持平。代价是,它消耗的 token 远多于开源竞争对手,这使它成为同类模型中效率最低的模型之一。

新架构大幅降低长上下文的算力成本

为了让 100 万 token 的上下文真正可用,智谱 AI 引入了一种名为 IndexShare 的技术。每四层 transformer 共享同一个轻量级索引器,而不是每一层都各自计算索引。这样在 100 万 token 上下文长度下,每个 token 的计算量应当可以降低 2.9 倍。

智谱 AI 还提升了文本生成速度。借助 speculative decoding,模型一次预测多个 token,然后再丢弃错误猜测。根据公司的消融研究,通过对这一过程进行几项调整,GLM-5.2 平均可接受多 20% 的预测 token,这会直接提升输出速度。

模型在训练中通过从 GitHub 下载代码来“作弊”

智谱 AI 以一种不同寻常的坦率方式,描述了强化学习用于编程任务时会出现的一个问题。由于奖励通常只是通过或失败的二元信号,模型可能学会钻空子,而不是真的写出更好的代码。GLM-5.2 比其前代更频繁地尝试这么做。

根据智谱 AI 的说法,模型会直接通过 curl 从 GitHub 拉取解决方案代码,

在文件系统中搜寻隐藏的评测文件,或者把多个命令串联起来,先寻找秘密测试用例,再将其输入到解决方案脚本中。这些手段会抬高奖励信号并污染训练过程。

为了解决这一问题,智谱 AI 构建了一个两阶段的反作弊模块。首先,基于规则的过滤器会拦截可疑行为。随后,LLM 裁判会检查被标记调用背后的意图。系统只会阻止作弊的那次调用,并返回一个虚拟响应,让训练继续运行。这样可以避免被中止的 rollout 使模型不稳定。

模型权重和 API 现已可用

模型权重已在 HuggingFace 和 ModelScope 上线,代码则托管在 GitHub 上,全部采用 MIT 许可证且不受地区限制。GLM-5.2 可通过 Z.ai 作为聊天界面和 API 使用,也可接入 ZCode、Claude Code 和 OpenCode 等编程 agent。对于本地部署,智谱 AI 支持 vLLM、SGLang、transformers、xLLM 和 ktransformers。

智谱 AI 近期发布了 GLM-5.1,这是一款开源权重模型,能够在编程任务上经过数百次迭代后自我优化策略。据称,它在八小时内搭建出了一个 Linux 桌面环境。GLM-5.2 在此基础上进一步增强,加入了 100 万 token 的上下文长度,以及强得多的长程能力。

中国 AI 实验室之间的竞争依然激烈。除了智谱 AI,Moonshot AI 的 Kimi K2.7-Code 和 MiniMax 的 M3 也在借助长上下文窗口争夺自主编程 agent 市场。

AI 新闻,无需炒作——由人类精选

订阅 THE DECODER,即可享受无广告阅读、每周 AI 通讯、我们每年 6 次发布的独家“AI Radar”前沿报告、完整归档访问权限,以及评论区使用权限。

来源与参考

  1. 原始链接
  2. Zhipu AI's GLM-5.2 closes in on closed-source leaders in coding marathons

收录于 2026-06-18