智谱AI的GLM-5.1模型能通过数百次迭代自我优化编程策略
The Decoder··作者 Jonathan Kemper
关键信息
GLM-5.1在优化向量数据库(达到每秒21,500次查询,对比之前3,547次)和从零构建完整Linux桌面环境(耗时8小时)等任务中展现出策略性转变,并执行了数千次工具调用。
资讯摘要
智谱AI发布的GLM-5.1是一个专为长期编程任务设计的新版开放权重大语言模型,它能反复审查并调整自身策略以突破瓶颈。该模型在SWE-Bench Pro基准测试中超越了GPT-5.4和Claude Opus 4.6。在一个测试中,它通过超过600轮迭代将向量数据库性能提升至此前最佳水平的六倍;另一项测试显示它能优化GPU上的机器学习代码,尽管仍落后于Claude Opus 4.6。
最令人印象深刻的是,它仅凭一个提示就构建出包含文件浏览器、终端、文本编辑器等组件的完整Linux桌面Web应用,持续迭代直至功能完备。虽然在推理任务上不如谷歌或OpenAI的模型,但GLM-5.1在AI编程代理的自我迭代改进方面实现了重要突破。

资讯正文
智谱AI的GLM-5.1可在数百次迭代中重新思考自身的编程策略
关键点
- 智谱AI发布了GLM-5.1,这是一个专为复杂且耗时较长的编程任务设计的免费模型。在具有挑战性的SWE-Bench Pro软件工程基准测试中,它略胜于GPT-5.4和Claude Opus 4.6。
- 据智谱AI称,该模型的关键优势在于,面对困难任务时不会陷入死胡同,而是会反复审查自身策略,并在进展停滞时从根本上改变方向。
- 在推理和知识类任务上,GLM-5.1落后于谷歌和OpenAI的模型。智谱AI称该模型只是一个“第一步”,并坦率承认仍需改进的地方。
智谱AI已将新发布的GLM-5.1模型以MIT许可证开源。据称,该模型在处理编码任务时,能通过数百次迭代不断优化自身方法。
智谱AI推出了GLM-5.1,这是一个专为长期运行、基于代理的编程任务设计的新版开放权重模型。其核心论点是:现有模型(包括智谱自己的前代产品GLM-5)在应对复杂问题时容易迅速枯竭思路——它们采用熟悉的策略,初期取得进展后便遇到瓶颈。单纯增加计算资源无法解决问题。
GLM-5.1旨在通过不断审查自身策略、识别死胡同并尝试新方法来解决这一问题。智谱AI描述这种优化过程涉及“数百轮迭代和数千次工具调用”。
该公司展示了三个场景,但所有实验均在内部进行,尚未有独立评估。
GLM-5.1能在任务执行过程中自主切换策略
在第一个场景中,GLM-5.1需要优化一个向量数据库——一种用于搜索大规模数据集并找到相似条目的系统。目标是在不降低准确率的前提下,尽可能提高每秒查询次数。据智谱AI称,在标准测试中,Claude Opus 4.6以每秒3,547次查询的成绩保持此前最佳记录,共进行了50轮。
而智谱AI则给予GLM-5.1无限次尝试机会。该模型自行决定何时提交新版本以及下一步尝试什么。经过超过600次迭代和6,000多次工具调用后,它达到了每秒21,500次查询的成绩——约为此前最佳成绩的六倍。
据智谱AI称,该模型在整个过程中多次根本性地改变了策略。大约在第90轮时,它从全面搜索所有数据转变为更高效的聚类方法;约在第240轮时,引入了两阶段流水线,先进行粗略预排序再做精确过滤。公司指出整个运行过程中共有六次此类结构上的转变,均由模型自行发起。
GPU优化显示出进步,但未达到顶尖水平
在第二个场景中,模型需重写现有机器学习代码,使其在GPU上运行更快。据智谱AI称,GLM-5.1实现了比基线实现高出3.6倍的速度提升,并且在后期阶段仍在持续改进。相比之下,GLM-5则更早进入平台期。
Claude Opus 4.6 在这项测试中依然明显领先,速度提升了 4.2 倍,并且在测试末尾仍显示出改进空间。GLM-5.1 相比前代模型扩展了生产力边界,但尚未缩小与最强竞争对手之间的差距。
从单一提示构建 Linux 桌面环境
第三个场景最为特殊。GLM-5.1 被要求仅凭一个提示就构建出完整的 Linux 桌面环境——没有初始代码,也没有中间指令。根据智谱 AI 的说法,大多数模型只会提供一个基础的 shell,带有一个任务栏和几个占位窗口,然后就宣布任务完成。
GLM-5.1 被置于一个循环中,每轮结束后都会审查自己的输出,并决定哪些部分仍然缺失或需要改进。公司表示,经过八小时运行后,最终结果是一个功能完整的桌面环境,包含文件浏览器、终端、文本编辑器、系统监视器、计算器以及小游戏。
擅长编码,推理能力较弱
在人工分析智能指数(Artificial Analysis Intelligence Index)上,该模型目前仅略逊于 Anthropic 的 Claude 4.6 Sonnet。
智谱 AI 明确指出了当前面临的挑战:模型需要更快识别死胡同,能够在数千次工具调用中保持连贯性,并且能在缺乏明确指标的任务中可靠地进行自我评估。该公司称,GLM-5.1 是朝着这一方向迈出的‘第一步’。
该模型已在 Hugging Face 和 ModelScope 上以 MIT 许可证发布,可通过 api.z.ai 和 BigModel.cn 的 API 平台访问。它还支持与 Claude Code 和 OpenClaw 等编码代理集成。对于本地部署,智谱 AI 支持 vLLM 和 SGLang 推理框架,并在 GitHub 仓库中提供了设置指南。通过 Z.ai 聊天界面访问预计将在未来几天上线。
智谱 AI 正迅速扩充其模型阵容
智谱 AI 最近推出了 GLM-5V-Turbo,这是一个多模态编码模型,可以直接从图像和视频生成代码。此前,公司在二月发布了 GLM-5,这是一个拥有 7440 亿参数的开源权重模型,旨在与主流专有模型在编码任务上竞争。GLM-5.1 很可能融合了这两者的优点,并增加了智谱 AI 希望使其在中国竞争对手中脱颖而出的长周期能力。这场竞争依然激烈:除智谱 AI 外,Moonshot AI 的 Kimi K2.5 和阿里巴巴的 Qwen3.5 也在积极进军自主编码代理市场。
智谱 AI 并非唯一押注长期运行 AI 代理的公司。早在 2026 年初,Cursor 就曾让数百个 GPT-5.2 代理花了一周时间开发一个网页浏览器。最终生成的超过三百万行 Rust 代码几乎无法维护,在 Software Improvement Group 对所有软件系统的分析中,排名进入最差的前百分之五。
来源与参考
收录于 2026-04-10