智谱AI的GLM-5V-Turbo可将设计草图直接转化为可执行前端代码

The Decoder·4月3日 20:04 UTC·作者 Jonathan Kemper

关键信息

该模型支持20万token上下文窗口，包含思考模式、流式输出、函数调用和上下文缓存等功能，并采用自研视觉编码器CogViT实现端到端多模态学习。

资讯摘要

智谱AI发布的GLM-5V-Turbo是其首个用于多模态编程的基础模型，能直接将设计草图转化为可执行的前端代码。它通过自研视觉编码器CogViT处理图像、视频和文本输入，并将感知、规划与执行整合成一个无缝流程。该模型在视觉编程任务（如将线框图转为可运行项目）和传统文本编程基准（如CC-Bench-V2）中表现优异。

它还在AndroidWorld和WebVoyager等GUI代理基准测试中表现出色，展示了自主导航真实界面的能力。智谱称，尽管增加了视觉能力，纯文本编程性能未下降，这得益于强化学习训练方法，覆盖超过30种任务类型。诸如框选绘制、截图和图像理解等工具扩展了其代理能力，使其超越纯文本交互。

资讯正文

智谱AI的GLM-5V-Turbo可直接将设计原型图转换为可执行的前端代码

要点

- 智谱AI发布了GLM-5V-Turbo，这是一个多模态模型，能够从图像、视频和文本输入中直接生成代码，包括将设计原型图转化为功能代码。

- 该模型依赖于自研视觉编码器，并专为集成感知、规划与执行于一体的代理工作流而构建。

- 据智谱AI称，GLM-5V-Turbo在多模态编程和GUI代理基准测试中表现优异，同时保持了纯文本编程任务的能力。

中国人工智能公司智谱AI发布了其首个多模态编程基础模型GLM-5V-Turbo。该模型能处理图像、视频和文本，并专门针对代理工作流设计。

借助GLM-5V-Turbo，这家初创企业希望缩小视觉理解与代码生成之间的差距。与仅依靠文本不同，该模型可以分析设计原型图，并直接从中生成可执行代码。据公司介绍，它可无缝接入Claude Code和OpenClaw等代理系统，完整实现“理解环境→规划行动→执行任务”的闭环流程。

该模型支持20万token的上下文窗口，最大输出可达12.8万token。特性包括思考模式、流式输出、函数调用以及上下文缓存。

视觉与代码如何融合在一个模型中

智谱AI表示，GLM-5V-Turbo的性能提升源于四个方面的改进：模型架构、训练方法、数据构建和工具链。

该模型从训练初期就学习联合处理图像和文本，而非在语言模型完成后额外添加独立的图像识别模块。为此，智谱AI开发了名为CogViT的新视觉编码器。此外，该模型在推理过程中可一次性预测多个token，有望加快输出速度。

强化学习优化了该模型在30多种任务类型上的表现，涵盖STEM、场景定位、视频、GUI代理和编程代理等，目标是增强感知、推理及代理执行能力。

为解决代理训练数据不足的问题，智谱AI构建了一个多层次、可控且可验证的数据体系。代理元技能在预训练阶段即被嵌入，以早期强化动作预测和执行能力。

一套全新的多模态工具链扩展了代理的功能范围，使其从纯文本交互延伸至视觉交互。包括框选绘制、截图和网页读取（含图像理解）在内的工具，完成了感知-规划-执行的闭环流程。

在编程和GUI代理基准测试中表现强劲

据智谱AI称，GLM-5V-Turbo在多模态编程和代理任务中均取得领先结果。该模型在设计转代码生成、视觉代码生成、多模态搜索和视觉探索方面得分良好，并在AndroidWorld和WebVoyager两个基准测试中表现突出，这两个测试用于评估代理在真实GUI环境中导航的能力。

智谱AI的GLM-5V-Turbo可直接将设计原型图转化为可执行的前端代码

在纯文本编码任务中，GLM-5V-Turbo即使增加了视觉能力也未出现性能下降，在CC-Bench-V2的三个核心基准测试（后端、前端、代码库探索）中表现稳定。它在PinchBench、ClawEval和ZClawBench等衡量任务执行质量的指标上也表现出色。独立评估仍在进行中。

设计原型图变为可运行的前端项目

GLM-5V-Turbo针对多个具体应用场景。该模型能接收设计原型图或参考图像，并生成一个完整且可运行的前端项目。它会重建线框结构和功能，力求与高分辨率设计达到像素级一致的视觉效果。

配合Claude Code等框架，该模型还能实现自主GUI探索：它能自行搜索目标网站，绘制页面跳转路径，收集视觉资产和交互细节，并根据发现内容编写代码。Z.AI称这是一次从“基于截图复刻”到“通过自主探索复刻”的升级。

在调试方面，该模型会截取出错页面，自动识别布局偏移、组件重叠和颜色不匹配等渲染问题，并生成修复代码。集成GLM-5V-Turbo后，OpenClaw也能理解网站布局、GUI元素和图表，从而胜任更多结合感知、规划与执行的复杂任务。

Z.AI已推出官方技能，包括图像描述、视觉定位、文档写作、简历筛选和提示词生成，全部可在ClawHub平台上使用。目前GLM-5V-Turbo仅作为API提供，价格为每百万输入token 1.20美元，每百万输出token 4美元，与纯文本版本GLM-5-Turbo相同，略高于基础版GLM-5。Z.AI尚未宣布开放模型权重。

GLM-5-Turbo和GLM-5奠定基础

Z.AI最近发布了GLM-5-Turbo，这是一个纯文本模型，专为OpenClaw代理框架打造，提升了工具调用、指令遵循、时间控制和持久任务以及长链任务执行能力。

同时，Z.AI推出了ZClawBench，这是OpenClaw生态系统中用于代理任务的端到端基准测试。结果显示，GLM-5-Turbo显著优于前代GLM-5，并在多个类别中击败了Claude Opus 4.6、Gemini 3.1 Pro、MiniMax M2.5和Kimi K2.5。Z.AI表示，OpenClaw生态系统中的技能使用率在短时间内从26%跃升至45%，显示出模块化代理系统正在快速获得动力。

阿里巴巴也采取类似策略，推出了Qwen3.5-Omni多模态模型，可处理文本、图像、音频和视频。与GLM-5V-Turbo一样，它能从视觉输入生成代码，还支持语音指令。

无炒作的AI新闻——由人类精选

来源与参考

收录于 2026-04-04