Qwen3.7-Plus推动多模态AI走向自主代理

The Decoder··作者 Jonathan Kemper

关键信息

阿里巴巴称,该模型在 GUI 任务上表现突出,包括自主复刻原生 macOS Stocks 应用、连接股票 API、编译应用并自动运行测试。不过,它在更难的推理基准上表现不一,在界面操作上的优势明显强于科学题或纯逻辑任务。

资讯摘要

阿里巴巴 Qwen 团队发布了 Qwen3.7-Plus,并将其描述为“多模态交互混合代理”。该模型建立在仅文本的 Qwen3.7 之上,把视觉感知与传统代理能力结合起来,包括编码和工具调用。阿里巴巴称,它可以识别真实世界场景、读取屏幕内容、操作图形界面、端到端地浏览手机应用,并在同一个代理循环中同时执行界面点击和命令行指令。团队展示的一个重要案例是,基于 Qwen3.7-Plus 的混合代理系统用超过 11 个小时构建了一个英语词汇学习应用。这个过程据称产生了超过 10,000 行代码,调用了 1,000 多次代理操作,并覆盖需求文档、自动代码生成、安装、测试用例创建、基于 GUI 的测试、并行测试场景以及版本管理。第二个演示中,代理通过解析 UI 结构,自主复刻了原生 macOS Stocks 应用,生成了 SwiftUI 代码,接入实时股票数据的外部 API,随后编译应用并自动运行了 10 个功能测试。

第三个用例展示了通过 “Qwen for Chrome” 侧边栏扩展实现的浏览器代理,该代理在获得用户许可后可进入代理模式,在云控制台中执行任务,例如购买最便宜的虚拟服务器实例,并进一步处理扩容和维护。阿里巴巴公布的基准测试表明,这个模型在 GUI 自动化方面尤其强,AndroidWorld 和 ScreenSpot Pro 上的表现领先,并声称在这些界面任务上优于 GPT-5.4(xhigh)、Opus 4.6 Max 和 Gemini 3.1 Pro 等模型。不过,在纯推理能力上,Qwen3.7-Plus 的结果没有那么一致,在 MedXpertQA-MM 这类更困难的科学基准上落后于部分竞争对手。与此同时,阿里巴巴表示它在文本任务上的表现与顶级模型大致相当。该模型通过阿里云 Model Studio 提供,并且是专有产品,没有开放权重,Plus 版本的定价也明显低于 Max 版本。

Qwen3.7-Plus推动多模态AI走向自主代理

资讯正文

Qwen3.7-Plus 是阿里巴巴试图将多模态 AI 打造成完整自主智能体的举措

要点

- 阿里巴巴发布了 Qwen3.7-Plus,这是一款将视觉理解与智能体能力结合起来的新 AI 模型,能够自主操作图形用户界面和应用程序。

- 在测试中,该系统展示了重建桌面应用、执行云端任务,以及独立编写一个完整应用程序并生成 10,000 行代码的能力。

- 尽管 Qwen3.7-Plus 在操作用户界面方面优于竞争对手,但在纯逻辑基准测试中表现不及对手。该模型可通过阿里云以专有、相对低价的方式获取。

阿里巴巴的 Qwen 团队发布了 Qwen3.7-Plus,这是一款建立在仅文本版 Qwen3.7 之上的多模态模型。它将视觉感知与传统的智能体能力结合在一起,例如编码和工具使用。

该模型被称为“多模态交互式混合智能体”,其设计目标是识别现实世界场景、读取屏幕内容、操作图形界面、根据可视模板编写代码,并端到端地导航移动应用。UI 点击和命令行指令都在同一个智能体循环中运行。

长达 11 小时的自主应用开发

借助 Qwen3.7-Plus,团队让一个混合智能体系统开发了一款英语词汇学习应用。Qwen 表示,该智能体连续运行了 11 个多小时,通过超过 1,000 次智能体调用生成了 10,000 多行代码。整个过程涵盖了需求文档编写、自动化代码生成、安装、测试用例创建、基于图形界面的测试、并行测试场景,以及独立的版本管理。

第二个演示面向桌面应用:据称,该智能体通过自主操作,解析 UI 结构,并由此生成 SwiftUI 代码,重建了 macOS 原生的 Stocks 应用。随后,它连接了一个外部 API 以获取实时股票数据,编译了应用,并独立运行了 10 项功能测试,包括价格查询和搜索筛选。

第三个用例展示了一个通过“Qwen for Chrome”实现的浏览器智能体,这是一个侧边栏扩展。在获得用户许可后,模型会切换到智能体模式,并在云控制台中执行任务,例如购买当前最便宜的虚拟服务器实例,包括配置镜像、存储和安全组。在后续任务中,智能体还会处理扩容和维护,Qwen 表示。

GUI 任务表现亮眼,困难推理测试则不然

Qwen 公布的基准测试描绘出一幅清晰图景:该模型在操作图形界面方面表现出色。在 AndroidWorld 和 ScreenSpot Pro 上,Qwen3.7-Plus 明显领先于 GPT-5.4 (xhigh)、Opus 4.6 Max 和 Gemini 3.1 Pro。它在面向智能体的终端工作和长周期任务规划方面也处于领先位置。

在经典的多模态推理方面,结果则喜忧参半。Qwen3.7-Plus 在一些视觉推理测试中位居榜首,但在 MedXpertQA-MM 这类更难的科学任务上,表现不及 Gemini 3.1 Pro 和 GPT-5.4。在文本方面,团队将其性能描述为与最高档模型相当,但并未在所有项目上全面超越对手。

跨框架兼容性使其与众不同

Qwen3.7-Plus 支持 Anthropic API 协议,并可直接与 Claude Code、OpenClaw 以及阿里巴巴自家的 Qwen Code 配合使用。该 API 还提供一项名为 preserve_thinking 的功能,可保留前几轮对话中的推理内容。Qwen 团队明确建议将这一设置用于 agentic 任务。

除了图像处理之外,这款模型还涵盖视频理解和驾驶场景分析,使其被定位为嵌入式系统和自动驾驶的基础模型。

来源与参考

  1. 原始链接
  2. Qwen3.7-Plus is Alibaba's bid to turn multimodal AI into a full-blown autonomous agent

收录于 2026-06-07