Qwen3.7-Plus推动多模态AI走向自主代理

The Decoder·6月6日 14:54 UTC·作者 Jonathan Kemper

关键信息

阿里巴巴称，该模型在 GUI 任务上表现突出，包括自主复刻原生 macOS Stocks 应用、连接股票 API、编译应用并自动运行测试。不过，它在更难的推理基准上表现不一，在界面操作上的优势明显强于科学题或纯逻辑任务。

资讯摘要

阿里巴巴 Qwen 团队发布了 Qwen3.7-Plus，并将其描述为“多模态交互混合代理”。该模型建立在仅文本的 Qwen3.7 之上，把视觉感知与传统代理能力结合起来，包括编码和工具调用。阿里巴巴称，它可以识别真实世界场景、读取屏幕内容、操作图形界面、端到端地浏览手机应用，并在同一个代理循环中同时执行界面点击和命令行指令。团队展示的一个重要案例是，基于 Qwen3.7-Plus 的混合代理系统用超过 11 个小时构建了一个英语词汇学习应用。这个过程据称产生了超过 10,000 行代码，调用了 1,000 多次代理操作，并覆盖需求文档、自动代码生成、安装、测试用例创建、基于 GUI 的测试、并行测试场景以及版本管理。第二个演示中，代理通过解析 UI 结构，自主复刻了原生 macOS Stocks 应用，生成了 SwiftUI 代码，接入实时股票数据的外部 API，随后编译应用并自动运行了 10 个功能测试。

第三个用例展示了通过 “Qwen for Chrome” 侧边栏扩展实现的浏览器代理，该代理在获得用户许可后可进入代理模式，在云控制台中执行任务，例如购买最便宜的虚拟服务器实例，并进一步处理扩容和维护。阿里巴巴公布的基准测试表明，这个模型在 GUI 自动化方面尤其强，AndroidWorld 和 ScreenSpot Pro 上的表现领先，并声称在这些界面任务上优于 GPT-5.4（xhigh）、Opus 4.6 Max 和 Gemini 3.1 Pro 等模型。不过，在纯推理能力上，Qwen3.7-Plus 的结果没有那么一致，在 MedXpertQA-MM 这类更困难的科学基准上落后于部分竞争对手。与此同时，阿里巴巴表示它在文本任务上的表现与顶级模型大致相当。该模型通过阿里云 Model Studio 提供，并且是专有产品，没有开放权重，Plus 版本的定价也明显低于 Max 版本。

资讯正文

Qwen3.7-Plus 是阿里巴巴试图将多模态 AI 打造成完整自主智能体的举措

要点

- 阿里巴巴发布了 Qwen3.7-Plus，这是一款将视觉理解与智能体能力结合起来的新 AI 模型，能够自主操作图形用户界面和应用程序。

- 在测试中，该系统展示了重建桌面应用、执行云端任务，以及独立编写一个完整应用程序并生成 10,000 行代码的能力。

- 尽管 Qwen3.7-Plus 在操作用户界面方面优于竞争对手，但在纯逻辑基准测试中表现不及对手。该模型可通过阿里云以专有、相对低价的方式获取。

阿里巴巴的 Qwen 团队发布了 Qwen3.7-Plus，这是一款建立在仅文本版 Qwen3.7 之上的多模态模型。它将视觉感知与传统的智能体能力结合在一起，例如编码和工具使用。

该模型被称为“多模态交互式混合智能体”，其设计目标是识别现实世界场景、读取屏幕内容、操作图形界面、根据可视模板编写代码，并端到端地导航移动应用。UI 点击和命令行指令都在同一个智能体循环中运行。

长达 11 小时的自主应用开发

借助 Qwen3.7-Plus，团队让一个混合智能体系统开发了一款英语词汇学习应用。Qwen 表示，该智能体连续运行了 11 个多小时，通过超过 1,000 次智能体调用生成了 10,000 多行代码。整个过程涵盖了需求文档编写、自动化代码生成、安装、测试用例创建、基于图形界面的测试、并行测试场景，以及独立的版本管理。

第二个演示面向桌面应用：据称，该智能体通过自主操作，解析 UI 结构，并由此生成 SwiftUI 代码，重建了 macOS 原生的 Stocks 应用。随后，它连接了一个外部 API 以获取实时股票数据，编译了应用，并独立运行了 10 项功能测试，包括价格查询和搜索筛选。

第三个用例展示了一个通过“Qwen for Chrome”实现的浏览器智能体，这是一个侧边栏扩展。在获得用户许可后，模型会切换到智能体模式，并在云控制台中执行任务，例如购买当前最便宜的虚拟服务器实例，包括配置镜像、存储和安全组。在后续任务中，智能体还会处理扩容和维护，Qwen 表示。

GUI 任务表现亮眼，困难推理测试则不然

Qwen 公布的基准测试描绘出一幅清晰图景：该模型在操作图形界面方面表现出色。在 AndroidWorld 和 ScreenSpot Pro 上，Qwen3.7-Plus 明显领先于 GPT-5.4 (xhigh)、Opus 4.6 Max 和 Gemini 3.1 Pro。它在面向智能体的终端工作和长周期任务规划方面也处于领先位置。

在经典的多模态推理方面，结果则喜忧参半。Qwen3.7-Plus 在一些视觉推理测试中位居榜首，但在 MedXpertQA-MM 这类更难的科学任务上，表现不及 Gemini 3.1 Pro 和 GPT-5.4。在文本方面，团队将其性能描述为与最高档模型相当，但并未在所有项目上全面超越对手。

跨框架兼容性使其与众不同

Qwen3.7-Plus 支持 Anthropic API 协议，并可直接与 Claude Code、OpenClaw 以及阿里巴巴自家的 Qwen Code 配合使用。该 API 还提供一项名为 preserve_thinking 的功能，可保留前几轮对话中的推理内容。Qwen 团队明确建议将这一设置用于 agentic 任务。

除了图像处理之外，这款模型还涵盖视频理解和驾驶场景分析，使其被定位为嵌入式系统和自动驾驶的基础模型。

来源与参考

收录于 2026-06-07