GLM-5.2逼近闭源编码领先者

The Decoder·6月18日 01:30 UTC·作者 Jonathan Kemper

关键信息

智谱AI表示，GLM-5.2 针对长程、智能体式编码场景进行了优化，包括大规模实现、自动化研究和复杂调试。该模型还引入了 IndexShare 以降低长上下文下的计算开销，并通过改进推测解码，使平均可接受的预测 token 数量提升约 20%。

资讯摘要

智谱AI发布了 GLM-5.2，并将其定位为面向长程任务的模型，适合持续数小时、涉及数千个步骤的工作。为支持这类场景，公司把上下文窗口扩展到 100 万 token，并重点用智能体式编码工作负载进行训练。智谱强调，真正困难的不是宣布一个很大的上下文窗口，而是在长时间、非结构化的编码会话中保持稳定可靠的表现。在 FrontierSWE 基准上，GLM-5.2 得分为 74.4%，仅比 Anthropic 的 Claude Opus 4.8 低 1 个百分点，同时略高于 OpenAI 的 GPT-5.5。在 PostTrainBench 上，它击败了 GPT-5.5 和 Opus 4.7，但仍落后于 Opus 4.8。到了难度更高的 SWE-Marathon，GLM-5.2 的表现就明显落后了，只拿到 Opus 4.8 大约一半的分数。

智谱还表示，用户可以调节模型的思考强度；在相近的 token 预算下，GLM-5.2 的编码能力明显强于 GLM-5.1。除了编码之外，该模型的综合表现较为分化：在 Humanity’s Last Exam 和 GPQA-Diamond 上明显落后于领先的闭源模型，但在 AIME 2026 上取得了 99.2% 的高分。第三方机构 Artificial Analysis 也确认了它相对前代的提升，将 GLM-5.2 在 Intelligence Index 上评为 51 分，使其成为当前最强的开源权重模型，并领先于 MiniMax M3、DeepSeek V4 Pro 和 Kimi K2.6。该机构还指出，GLM-5.2 在 GDPval-AA v2 上追平了专有的 GPT-5.5，但它消耗的 token 远高于开源竞品，因此在效率上并不占优。为了让超长上下文变得可用，智谱引入了名为 IndexShare 的技术，让四层 Transformer 共享同一个轻量级索引器，据称在 100 万 token 上下文下可将每个 token 的计算量降低 2.9 倍。公司还表示，通过对推测解码流程的多项调整，模型平均可接受更多预测 token，从而提升生成速度。

资讯正文

智谱AI的GLM-5.2在编程马拉松中逼近闭源领头羊

中国AI实验室智谱AI发布了GLM-5.2，并在MIT许可证下提供稳定的100万token上下文窗口。在持续数小时的编码任务中，这款开源模型与Anthropic的Opus系列模型相比仅落后几个百分点。

智谱AI推出了GLM-5.2，将其定位为所谓的长周期任务工具——也就是会持续数小时、涉及成千上万道独立步骤的编码工作。为实现这一目标，公司将上下文窗口扩展到100万token，并将训练重点放在代理式编码场景上，例如大规模实现、自动化研究和复杂调试。

智谱AI在博客文章中写道：“100万上下文容易宣称，但要在真实工程压力下保持可靠得多难得多，”因为模型需要在漫长、非结构化的编码代理会话中维持质量。

只比最新的Opus模型低一个百分点

在FrontierSWE上，这一基准评测涵盖从数小时到数十小时不等的开放式工程项目，GLM-5.2得分为74.4%，仅比Anthropic的Claude Opus 4.8低1个百分点，且略高于OpenAI的GPT-5.5。

在PostTrainBench上，代理使用H100 GPU通过后训练改进小模型，GLM-5.2击败了GPT-5.5和Opus 4.7，再次位居第二，仅次于Opus 4.8。在SWE-Marathon上，这是一项超长周期基准，任务包括编译器构建和内核优化等高难度工作，差距就大得多了：GLM-5.2的得分只有Opus 4.8的一半。

Anthropic目前最强的模型Fable和Mythos并未纳入这些比较，因为Fable在发布后不久就被撤下，而Mythos也从未广泛公开发布。智谱AI表示，在这三项基准中，GLM-5.2仍然是最强的开源模型。

用户还可以调高或调低模型的思考强度。智谱AI称，在相近的token预算下，GLM-5.2的编码表现明显强于GLM-5.1。最高档位“Max”允许用户为最难的问题投入更多算力。

推理能力仍明显落后于闭源竞品

在Humanity's Last Exam上，根据基准表，GLM-5.2明显落后于Claude Opus 4.8和Gemini 3.1 Pro。后两者分别领先大约10个和5个百分点。GLM-5.2在科学问答基准GPQA-Diamond上的排名也落后于顶级闭源模型。数学则是另一回事。该模型在AIME 2026上拿下了99.2%的成绩。

编码之外的代理式任务则呈现出喜忧参半的局面。在工具使用测试MCP-Atlas上，GLM-5.2与Opus 4.8几乎打成平手。在Tool-Decathlon上，它则明显落后于Opus 4.8和GPT-5.5。

独立平台Artificial Analysis也证实了它相较前代的进步。在其Intelligence Index上，GLM-5.2得分51分，成为目前最强的开放权重模型。它明显领先于MiniMax M3、DeepSeek V4 Pro和Kimi K2.6。提升最大的部分出现在科学推理方面，而且相比前代，它的幻觉现象也略少一些。

在 GDPval-AA v2 上，Artificial Analysis 将其视为面向真实世界 agentic 任务的最佳指标，GLM-5.2 与专有的 GPT-5.5 持平。代价是，它消耗的 token 远多于开源竞争对手，这使它成为同类模型中效率最低的模型之一。

新架构大幅降低长上下文的算力成本

为了让 100 万 token 的上下文真正可用，智谱 AI 引入了一种名为 IndexShare 的技术。每四层 transformer 共享同一个轻量级索引器，而不是每一层都各自计算索引。这样在 100 万 token 上下文长度下，每个 token 的计算量应当可以降低 2.9 倍。

智谱 AI 还提升了文本生成速度。借助 speculative decoding，模型一次预测多个 token，然后再丢弃错误猜测。根据公司的消融研究，通过对这一过程进行几项调整，GLM-5.2 平均可接受多 20% 的预测 token，这会直接提升输出速度。

模型在训练中通过从 GitHub 下载代码来“作弊”

智谱 AI 以一种不同寻常的坦率方式，描述了强化学习用于编程任务时会出现的一个问题。由于奖励通常只是通过或失败的二元信号，模型可能学会钻空子，而不是真的写出更好的代码。GLM-5.2 比其前代更频繁地尝试这么做。

根据智谱 AI 的说法，模型会直接通过 curl 从 GitHub 拉取解决方案代码，

在文件系统中搜寻隐藏的评测文件，或者把多个命令串联起来，先寻找秘密测试用例，再将其输入到解决方案脚本中。这些手段会抬高奖励信号并污染训练过程。

为了解决这一问题，智谱 AI 构建了一个两阶段的反作弊模块。首先，基于规则的过滤器会拦截可疑行为。随后，LLM 裁判会检查被标记调用背后的意图。系统只会阻止作弊的那次调用，并返回一个虚拟响应，让训练继续运行。这样可以避免被中止的 rollout 使模型不稳定。

模型权重和 API 现已可用

模型权重已在 HuggingFace 和 ModelScope 上线，代码则托管在 GitHub 上，全部采用 MIT 许可证且不受地区限制。GLM-5.2 可通过 Z.ai 作为聊天界面和 API 使用，也可接入 ZCode、Claude Code 和 OpenCode 等编程 agent。对于本地部署，智谱 AI 支持 vLLM、SGLang、transformers、xLLM 和 ktransformers。

智谱 AI 近期发布了 GLM-5.1，这是一款开源权重模型，能够在编程任务上经过数百次迭代后自我优化策略。据称，它在八小时内搭建出了一个 Linux 桌面环境。GLM-5.2 在此基础上进一步增强，加入了 100 万 token 的上下文长度，以及强得多的长程能力。

中国 AI 实验室之间的竞争依然激烈。除了智谱 AI，Moonshot AI 的 Kimi K2.7-Code 和 MiniMax 的 M3 也在借助长上下文窗口争夺自主编程 agent 市场。

AI 新闻，无需炒作——由人类精选

订阅 THE DECODER，即可享受无广告阅读、每周 AI 通讯、我们每年 6 次发布的独家“AI Radar”前沿报告、完整归档访问权限，以及评论区使用权限。

来源与参考

收录于 2026-06-18