阿里 Qwen3.7-Max 自主运行 35 小时优化芯片代码

The Decoder·5月23日 18:17 UTC·作者 Jonathan Kemper

关键信息

这次芯片优化测试据称没有硬件文档、没有测量数据，也没有示例代码；模型只能基于一个 Triton 参考实现来工作。阿里方面表示，它完成了 432 次内核测试和 1,158 次工具调用，最终相对参考内核实现了平均 10 倍加速。

资讯摘要

阿里巴巴 Qwen 团队推出了 Qwen3.7-Max，这是一款专门面向代理式工作流的新旗舰模型，而不是面向普通聊天场景的通用模型。该模型只通过 API 提供，并且支持与 OpenAI 和 Anthropic 兼容的接口，因此可以接入 Claude Code、OpenClaw 和 Qwen Code 等工具。阿里表示，这款模型重点面向编程代理、办公自动化、长时间自主执行，以及在不同代理框架下保持一致表现等场景。一个最引人注目的演示是，Qwen3.7-Max 连续 35 小时全程自主完成了一个内核优化任务。这个任务是在阿里自家的 T-Head-ZW-M890 加速器平台上，为 SGLang 优化一个硬件注意力内核，而起点只有一个 Triton 参考实现。团队称，这个模型在训练阶段从未见过这类芯片架构，并且在执行任务时没有任何硬件文档、测量数据或示例代码可用。

整个过程中，它完成了 432 次内核测试和 1,158 次工具调用，持续进行编译、测量、修改和排错。阿里方面表示，最终优化后的内核相较参考实现平均提速 10 倍。公司还称，Qwen3.7-Max 在标准基准上可与头部 AI 实验室的模型竞争，并采用了旨在增强跨环境鲁棒性的训练方法。该方法把每个任务拆成任务本身、工具环境和验证器三个独立部分，再重新组合训练，以迫使模型学习可迁移的策略，而不是只学会某一种环境下的捷径。团队表示，这让模型在 QwenClawBench 和 CoWorkBench 等基准上，即使切换测试环境也能保持稳定表现。此外，阿里还让 Qwen3.7-Max 在训练过程中充当自我监督的“看门人”，它监控了超过 80 小时的软件工程训练运行，执行了 10,000 多次检查，写出了 13 条新的检测规则，并标记了 1,618 个疑似奖励作弊案例。

资讯正文

阿里巴巴最新的 AI 模型为了优化其自研芯片代码，曾自主运行了 35 个小时

要点

- 阿里巴巴的 Qwen 团队发布了 Qwen3.7-Max，这是一款专为自主任务打造的新 AI 模型，仅通过 API 提供，而不是面向用户的交互界面。

- 该模型旨在处理复杂的软件项目，并能在较长时间内独立工作。在实际基准测试中，它完全自主地完成了代码优化，且在速度上超过了许多竞争模型。

- 在标准基准测试中，Qwen3.7-Max 的表现与领先的 AI 实验室不相上下。值得注意的是，开发者还在模型自身的训练过程中，使用它独立检测不良行为和作弊尝试。

阿里巴巴的 Qwen 团队发布了 Qwen3.7-Max，这是一款面向 agent 任务的专有模型。在一次真实世界测试中，该模型连续 35 个小时完全自主地运行了一个内核优化任务。

和前代 Qwen3-Max 与 Qwen3.6-Plus 一样，新版 Max 目前也只能通过 Alibaba Cloud Model Studio API 使用。阿里巴巴过去曾将 Qwen 模型以开源形式发布，但这一情况已经改变。上一次开放的旗舰模型是 2026 年 2 月发布的 Qwen3.5-397B-A17B。

Qwen3.7-Max 支持与 OpenAI 和 Anthropic 兼容的接口，并可直接接入 Claude Code、OpenClaw 或 Qwen Code。Qwen 团队表示，该模型瞄准四类用例：从前端原型到复杂的多文件软件项目，作为编码代理工作；借助外部工具自动化办公任务；长时间自主运行；以及在不同 agent 框架中保持稳定表现。

一个持续了 35 小时的内核实验

Qwen3.7-Max 接到的任务是，为开源推理软件 SGLang 优化一个基于硬件的注意力内核。运行硬件是一台云实例，配备了 T-Head-ZW-M890 加速器，这是阿里巴巴自有半导体部门推出的 AI 芯片平台。

Qwen 团队表示，模型在训练中从未见过这种芯片架构。它开始时没有任何测量数据、硬件文档或示例代码。它唯一能用的，是用 Triton 编程语言编写的现有参考实现。

在大约 35 个小时不间断的自主工作中，该模型进行了 432 次内核测试，总计调用工具 1,158 次。它在循环中编译、测量并修订代码，自己捕捉编译错误，并独立排查性能瓶颈。Qwen 研究人员表示，最终结果是相较参考实现平均快了 10 倍。

训练将任务、工具环境和验证器拆分开来

Qwen3.7-Max 建立在该团队最早随 Qwen3.5 推出的训练方法之上。每个训练任务都拆分为三个彼此独立的部分：实际任务、工具环境，以及用于检查结果的验证器。这三者可以自由组合。

同一项任务会在不同工具环境中反复练习，并通过不同的测试方法进行检验。这么做是为了迫使模型学会在各种环境中都有效的策略，而不是只依赖某一种特定设置下的捷径。团队表示，在 QwenClawBench 和 CoWorkBench 上，Qwen3.7-Max 无论被放到哪种测试环境中都能保持稳定表现。

该模型在训练过程中对“奖励黑客”行为进行自我监控

Qwen 团队还让 Qwen3.7-Max 在自身训练过程中充当“监工”。这款模型在超过 80 小时的时间里观察了软件工程任务的训练运行，并执行了 10,000 多次检查。它专门搜寻正在被训练的模型可能耍出的花招，以骗取奖励，例如直接从 GitHub 上抓取正确答案。Qwen3.7-Max 编写了 13 条新的检测规则，并标记出 1,618 个案例。

在模拟测试中检验一年期的长期规划能力

为了评估长期规划能力，团队使用了 YC-Bench，这是一个模拟初创公司完整一年生命周期的基准测试。模型必须在数百轮决策中管理员工、审查合同、识别恶意客户，并在劳动力成本上升的情况下维持健康的利润率。

Qwen3.7-Max 的总营收达到 208 万美元，并完成了 237 项任务。其前代模型 Qwen3.6-Plus 的成绩是 105 万美元，而 Qwen3.5-Plus 仅实现了 35.2 万美元。

不过，其中一些基准是团队自研的。QwenWebDev、QwenClawBench、CoWorkBench 和 QwenWorldBench 都出自 Qwen 团队之手。这里展示的每一项结果均为自报。关于扩展动态和方法论的更深入分析，将在即将发布的技术报告中给出。

除了常见应用场景外，团队还展示了 Qwen3.7-Max 如何操控一只四足机器人。借助其自有的机器人框架和配套的导航模型，这个语言模型引导机器人穿行于物理空间中。

来源与参考

收录于 2026-05-24