智谱AI的GLM-5.1模型能通过数百次迭代自我优化编程策略

The Decoder·4月9日 19:05 UTC·作者 Jonathan Kemper

关键信息

GLM-5.1在优化向量数据库（达到每秒21,500次查询，对比之前3,547次）和从零构建完整Linux桌面环境（耗时8小时）等任务中展现出策略性转变，并执行了数千次工具调用。

资讯摘要

智谱AI发布的GLM-5.1是一个专为长期编程任务设计的新版开放权重大语言模型，它能反复审查并调整自身策略以突破瓶颈。该模型在SWE-Bench Pro基准测试中超越了GPT-5.4和Claude Opus 4.6。在一个测试中，它通过超过600轮迭代将向量数据库性能提升至此前最佳水平的六倍；另一项测试显示它能优化GPU上的机器学习代码，尽管仍落后于Claude Opus 4.6。

最令人印象深刻的是，它仅凭一个提示就构建出包含文件浏览器、终端、文本编辑器等组件的完整Linux桌面Web应用，持续迭代直至功能完备。虽然在推理任务上不如谷歌或OpenAI的模型，但GLM-5.1在AI编程代理的自我迭代改进方面实现了重要突破。

资讯正文

智谱AI的GLM-5.1可在数百次迭代中重新思考自身的编程策略

关键点

- 智谱AI发布了GLM-5.1，这是一个专为复杂且耗时较长的编程任务设计的免费模型。在具有挑战性的SWE-Bench Pro软件工程基准测试中，它略胜于GPT-5.4和Claude Opus 4.6。

- 据智谱AI称，该模型的关键优势在于，面对困难任务时不会陷入死胡同，而是会反复审查自身策略，并在进展停滞时从根本上改变方向。

- 在推理和知识类任务上，GLM-5.1落后于谷歌和OpenAI的模型。智谱AI称该模型只是一个“第一步”，并坦率承认仍需改进的地方。

智谱AI已将新发布的GLM-5.1模型以MIT许可证开源。据称，该模型在处理编码任务时，能通过数百次迭代不断优化自身方法。

智谱AI推出了GLM-5.1，这是一个专为长期运行、基于代理的编程任务设计的新版开放权重模型。其核心论点是：现有模型（包括智谱自己的前代产品GLM-5）在应对复杂问题时容易迅速枯竭思路——它们采用熟悉的策略，初期取得进展后便遇到瓶颈。单纯增加计算资源无法解决问题。

GLM-5.1旨在通过不断审查自身策略、识别死胡同并尝试新方法来解决这一问题。智谱AI描述这种优化过程涉及“数百轮迭代和数千次工具调用”。

该公司展示了三个场景，但所有实验均在内部进行，尚未有独立评估。

GLM-5.1能在任务执行过程中自主切换策略

在第一个场景中，GLM-5.1需要优化一个向量数据库——一种用于搜索大规模数据集并找到相似条目的系统。目标是在不降低准确率的前提下，尽可能提高每秒查询次数。据智谱AI称，在标准测试中，Claude Opus 4.6以每秒3,547次查询的成绩保持此前最佳记录，共进行了50轮。

而智谱AI则给予GLM-5.1无限次尝试机会。该模型自行决定何时提交新版本以及下一步尝试什么。经过超过600次迭代和6,000多次工具调用后，它达到了每秒21,500次查询的成绩——约为此前最佳成绩的六倍。

据智谱AI称，该模型在整个过程中多次根本性地改变了策略。大约在第90轮时，它从全面搜索所有数据转变为更高效的聚类方法；约在第240轮时，引入了两阶段流水线，先进行粗略预排序再做精确过滤。公司指出整个运行过程中共有六次此类结构上的转变，均由模型自行发起。

GPU优化显示出进步，但未达到顶尖水平

在第二个场景中，模型需重写现有机器学习代码，使其在GPU上运行更快。据智谱AI称，GLM-5.1实现了比基线实现高出3.6倍的速度提升，并且在后期阶段仍在持续改进。相比之下，GLM-5则更早进入平台期。

Claude Opus 4.6 在这项测试中依然明显领先，速度提升了 4.2 倍，并且在测试末尾仍显示出改进空间。GLM-5.1 相比前代模型扩展了生产力边界，但尚未缩小与最强竞争对手之间的差距。

从单一提示构建 Linux 桌面环境

第三个场景最为特殊。GLM-5.1 被要求仅凭一个提示就构建出完整的 Linux 桌面环境——没有初始代码，也没有中间指令。根据智谱 AI 的说法，大多数模型只会提供一个基础的 shell，带有一个任务栏和几个占位窗口，然后就宣布任务完成。

GLM-5.1 被置于一个循环中，每轮结束后都会审查自己的输出，并决定哪些部分仍然缺失或需要改进。公司表示，经过八小时运行后，最终结果是一个功能完整的桌面环境，包含文件浏览器、终端、文本编辑器、系统监视器、计算器以及小游戏。

擅长编码，推理能力较弱

在人工分析智能指数（Artificial Analysis Intelligence Index）上，该模型目前仅略逊于 Anthropic 的 Claude 4.6 Sonnet。

智谱 AI 明确指出了当前面临的挑战：模型需要更快识别死胡同，能够在数千次工具调用中保持连贯性，并且能在缺乏明确指标的任务中可靠地进行自我评估。该公司称，GLM-5.1 是朝着这一方向迈出的‘第一步’。

该模型已在 Hugging Face 和 ModelScope 上以 MIT 许可证发布，可通过 api.z.ai 和 BigModel.cn 的 API 平台访问。它还支持与 Claude Code 和 OpenClaw 等编码代理集成。对于本地部署，智谱 AI 支持 vLLM 和 SGLang 推理框架，并在 GitHub 仓库中提供了设置指南。通过 Z.ai 聊天界面访问预计将在未来几天上线。

智谱 AI 正迅速扩充其模型阵容

智谱 AI 最近推出了 GLM-5V-Turbo，这是一个多模态编码模型，可以直接从图像和视频生成代码。此前，公司在二月发布了 GLM-5，这是一个拥有 7440 亿参数的开源权重模型，旨在与主流专有模型在编码任务上竞争。GLM-5.1 很可能融合了这两者的优点，并增加了智谱 AI 希望使其在中国竞争对手中脱颖而出的长周期能力。这场竞争依然激烈：除智谱 AI 外，Moonshot AI 的 Kimi K2.5 和阿里巴巴的 Qwen3.5 也在积极进军自主编码代理市场。

智谱 AI 并非唯一押注长期运行 AI 代理的公司。早在 2026 年初，Cursor 就曾让数百个 GPT-5.2 代理花了一周时间开发一个网页浏览器。最终生成的超过三百万行 Rust 代码几乎无法维护，在 Software Improvement Group 对所有软件系统的分析中，排名进入最差的前百分之五。

来源与参考

收录于 2026-04-10