智谱AI的GLM-5V-Turbo可将设计草图直接转化为可执行前端代码

The Decoder··作者 Jonathan Kemper

关键信息

该模型支持20万token上下文窗口,包含思考模式、流式输出、函数调用和上下文缓存等功能,并采用自研视觉编码器CogViT实现端到端多模态学习。

资讯摘要

智谱AI发布的GLM-5V-Turbo是其首个用于多模态编程的基础模型,能直接将设计草图转化为可执行的前端代码。它通过自研视觉编码器CogViT处理图像、视频和文本输入,并将感知、规划与执行整合成一个无缝流程。该模型在视觉编程任务(如将线框图转为可运行项目)和传统文本编程基准(如CC-Bench-V2)中表现优异。

它还在AndroidWorld和WebVoyager等GUI代理基准测试中表现出色,展示了自主导航真实界面的能力。智谱称,尽管增加了视觉能力,纯文本编程性能未下降,这得益于强化学习训练方法,覆盖超过30种任务类型。诸如框选绘制、截图和图像理解等工具扩展了其代理能力,使其超越纯文本交互。

智谱AI的GLM-5V-Turbo可将设计草图直接转化为可执行前端代码

资讯正文

智谱AI的GLM-5V-Turbo可直接将设计原型图转换为可执行的前端代码

要点

- 智谱AI发布了GLM-5V-Turbo,这是一个多模态模型,能够从图像、视频和文本输入中直接生成代码,包括将设计原型图转化为功能代码。

- 该模型依赖于自研视觉编码器,并专为集成感知、规划与执行于一体的代理工作流而构建。

- 据智谱AI称,GLM-5V-Turbo在多模态编程和GUI代理基准测试中表现优异,同时保持了纯文本编程任务的能力。

中国人工智能公司智谱AI发布了其首个多模态编程基础模型GLM-5V-Turbo。该模型能处理图像、视频和文本,并专门针对代理工作流设计。

借助GLM-5V-Turbo,这家初创企业希望缩小视觉理解与代码生成之间的差距。与仅依靠文本不同,该模型可以分析设计原型图,并直接从中生成可执行代码。据公司介绍,它可无缝接入Claude Code和OpenClaw等代理系统,完整实现“理解环境→规划行动→执行任务”的闭环流程。

该模型支持20万token的上下文窗口,最大输出可达12.8万token。特性包括思考模式、流式输出、函数调用以及上下文缓存。

视觉与代码如何融合在一个模型中

智谱AI表示,GLM-5V-Turbo的性能提升源于四个方面的改进:模型架构、训练方法、数据构建和工具链。

该模型从训练初期就学习联合处理图像和文本,而非在语言模型完成后额外添加独立的图像识别模块。为此,智谱AI开发了名为CogViT的新视觉编码器。此外,该模型在推理过程中可一次性预测多个token,有望加快输出速度。

强化学习优化了该模型在30多种任务类型上的表现,涵盖STEM、场景定位、视频、GUI代理和编程代理等,目标是增强感知、推理及代理执行能力。

为解决代理训练数据不足的问题,智谱AI构建了一个多层次、可控且可验证的数据体系。代理元技能在预训练阶段即被嵌入,以早期强化动作预测和执行能力。

一套全新的多模态工具链扩展了代理的功能范围,使其从纯文本交互延伸至视觉交互。包括框选绘制、截图和网页读取(含图像理解)在内的工具,完成了感知-规划-执行的闭环流程。

在编程和GUI代理基准测试中表现强劲

据智谱AI称,GLM-5V-Turbo在多模态编程和代理任务中均取得领先结果。该模型在设计转代码生成、视觉代码生成、多模态搜索和视觉探索方面得分良好,并在AndroidWorld和WebVoyager两个基准测试中表现突出,这两个测试用于评估代理在真实GUI环境中导航的能力。

智谱AI的GLM-5V-Turbo可直接将设计原型图转化为可执行的前端代码

在纯文本编码任务中,GLM-5V-Turbo即使增加了视觉能力也未出现性能下降,在CC-Bench-V2的三个核心基准测试(后端、前端、代码库探索)中表现稳定。它在PinchBench、ClawEval和ZClawBench等衡量任务执行质量的指标上也表现出色。独立评估仍在进行中。

设计原型图变为可运行的前端项目

GLM-5V-Turbo针对多个具体应用场景。该模型能接收设计原型图或参考图像,并生成一个完整且可运行的前端项目。它会重建线框结构和功能,力求与高分辨率设计达到像素级一致的视觉效果。

配合Claude Code等框架,该模型还能实现自主GUI探索:它能自行搜索目标网站,绘制页面跳转路径,收集视觉资产和交互细节,并根据发现内容编写代码。Z.AI称这是一次从“基于截图复刻”到“通过自主探索复刻”的升级。

在调试方面,该模型会截取出错页面,自动识别布局偏移、组件重叠和颜色不匹配等渲染问题,并生成修复代码。集成GLM-5V-Turbo后,OpenClaw也能理解网站布局、GUI元素和图表,从而胜任更多结合感知、规划与执行的复杂任务。

Z.AI已推出官方技能,包括图像描述、视觉定位、文档写作、简历筛选和提示词生成,全部可在ClawHub平台上使用。目前GLM-5V-Turbo仅作为API提供,价格为每百万输入token 1.20美元,每百万输出token 4美元,与纯文本版本GLM-5-Turbo相同,略高于基础版GLM-5。Z.AI尚未宣布开放模型权重。

GLM-5-Turbo和GLM-5奠定基础

Z.AI最近发布了GLM-5-Turbo,这是一个纯文本模型,专为OpenClaw代理框架打造,提升了工具调用、指令遵循、时间控制和持久任务以及长链任务执行能力。

同时,Z.AI推出了ZClawBench,这是OpenClaw生态系统中用于代理任务的端到端基准测试。结果显示,GLM-5-Turbo显著优于前代GLM-5,并在多个类别中击败了Claude Opus 4.6、Gemini 3.1 Pro、MiniMax M2.5和Kimi K2.5。Z.AI表示,OpenClaw生态系统中的技能使用率在短时间内从26%跃升至45%,显示出模块化代理系统正在快速获得动力。

阿里巴巴也采取类似策略,推出了Qwen3.5-Omni多模态模型,可处理文本、图像、音频和视频。与GLM-5V-Turbo一样,它能从视觉输入生成代码,还支持语音指令。

无炒作的AI新闻——由人类精选

来源与参考

  1. 原始链接
  2. Zhipu AI's GLM-5V-Turbo turns design mockups directly into executable front-end code

收录于 2026-04-04