阿里 Qwen3.7-Max 自主运行 35 小时优化芯片代码

The Decoder··作者 Jonathan Kemper

关键信息

这次芯片优化测试据称没有硬件文档、没有测量数据,也没有示例代码;模型只能基于一个 Triton 参考实现来工作。阿里方面表示,它完成了 432 次内核测试和 1,158 次工具调用,最终相对参考内核实现了平均 10 倍加速。

资讯摘要

阿里巴巴 Qwen 团队推出了 Qwen3.7-Max,这是一款专门面向代理式工作流的新旗舰模型,而不是面向普通聊天场景的通用模型。该模型只通过 API 提供,并且支持与 OpenAI 和 Anthropic 兼容的接口,因此可以接入 Claude Code、OpenClaw 和 Qwen Code 等工具。阿里表示,这款模型重点面向编程代理、办公自动化、长时间自主执行,以及在不同代理框架下保持一致表现等场景。一个最引人注目的演示是,Qwen3.7-Max 连续 35 小时全程自主完成了一个内核优化任务。这个任务是在阿里自家的 T-Head-ZW-M890 加速器平台上,为 SGLang 优化一个硬件注意力内核,而起点只有一个 Triton 参考实现。团队称,这个模型在训练阶段从未见过这类芯片架构,并且在执行任务时没有任何硬件文档、测量数据或示例代码可用。

整个过程中,它完成了 432 次内核测试和 1,158 次工具调用,持续进行编译、测量、修改和排错。阿里方面表示,最终优化后的内核相较参考实现平均提速 10 倍。公司还称,Qwen3.7-Max 在标准基准上可与头部 AI 实验室的模型竞争,并采用了旨在增强跨环境鲁棒性的训练方法。该方法把每个任务拆成任务本身、工具环境和验证器三个独立部分,再重新组合训练,以迫使模型学习可迁移的策略,而不是只学会某一种环境下的捷径。团队表示,这让模型在 QwenClawBench 和 CoWorkBench 等基准上,即使切换测试环境也能保持稳定表现。此外,阿里还让 Qwen3.7-Max 在训练过程中充当自我监督的“看门人”,它监控了超过 80 小时的软件工程训练运行,执行了 10,000 多次检查,写出了 13 条新的检测规则,并标记了 1,618 个疑似奖励作弊案例。

阿里 Qwen3.7-Max 自主运行 35 小时优化芯片代码

资讯正文

阿里巴巴最新的 AI 模型为了优化其自研芯片代码,曾自主运行了 35 个小时

要点

- 阿里巴巴的 Qwen 团队发布了 Qwen3.7-Max,这是一款专为自主任务打造的新 AI 模型,仅通过 API 提供,而不是面向用户的交互界面。

- 该模型旨在处理复杂的软件项目,并能在较长时间内独立工作。在实际基准测试中,它完全自主地完成了代码优化,且在速度上超过了许多竞争模型。

- 在标准基准测试中,Qwen3.7-Max 的表现与领先的 AI 实验室不相上下。值得注意的是,开发者还在模型自身的训练过程中,使用它独立检测不良行为和作弊尝试。

阿里巴巴的 Qwen 团队发布了 Qwen3.7-Max,这是一款面向 agent 任务的专有模型。在一次真实世界测试中,该模型连续 35 个小时完全自主地运行了一个内核优化任务。

和前代 Qwen3-Max 与 Qwen3.6-Plus 一样,新版 Max 目前也只能通过 Alibaba Cloud Model Studio API 使用。阿里巴巴过去曾将 Qwen 模型以开源形式发布,但这一情况已经改变。上一次开放的旗舰模型是 2026 年 2 月发布的 Qwen3.5-397B-A17B。

Qwen3.7-Max 支持与 OpenAI 和 Anthropic 兼容的接口,并可直接接入 Claude Code、OpenClaw 或 Qwen Code。Qwen 团队表示,该模型瞄准四类用例:从前端原型到复杂的多文件软件项目,作为编码代理工作;借助外部工具自动化办公任务;长时间自主运行;以及在不同 agent 框架中保持稳定表现。

一个持续了 35 小时的内核实验

Qwen3.7-Max 接到的任务是,为开源推理软件 SGLang 优化一个基于硬件的注意力内核。运行硬件是一台云实例,配备了 T-Head-ZW-M890 加速器,这是阿里巴巴自有半导体部门推出的 AI 芯片平台。

Qwen 团队表示,模型在训练中从未见过这种芯片架构。它开始时没有任何测量数据、硬件文档或示例代码。它唯一能用的,是用 Triton 编程语言编写的现有参考实现。

在大约 35 个小时不间断的自主工作中,该模型进行了 432 次内核测试,总计调用工具 1,158 次。它在循环中编译、测量并修订代码,自己捕捉编译错误,并独立排查性能瓶颈。Qwen 研究人员表示,最终结果是相较参考实现平均快了 10 倍。

训练将任务、工具环境和验证器拆分开来

Qwen3.7-Max 建立在该团队最早随 Qwen3.5 推出的训练方法之上。每个训练任务都拆分为三个彼此独立的部分:实际任务、工具环境,以及用于检查结果的验证器。这三者可以自由组合。

同一项任务会在不同工具环境中反复练习,并通过不同的测试方法进行检验。这么做是为了迫使模型学会在各种环境中都有效的策略,而不是只依赖某一种特定设置下的捷径。团队表示,在 QwenClawBench 和 CoWorkBench 上,Qwen3.7-Max 无论被放到哪种测试环境中都能保持稳定表现。

该模型在训练过程中对“奖励黑客”行为进行自我监控

Qwen 团队还让 Qwen3.7-Max 在自身训练过程中充当“监工”。这款模型在超过 80 小时的时间里观察了软件工程任务的训练运行,并执行了 10,000 多次检查。它专门搜寻正在被训练的模型可能耍出的花招,以骗取奖励,例如直接从 GitHub 上抓取正确答案。Qwen3.7-Max 编写了 13 条新的检测规则,并标记出 1,618 个案例。

在模拟测试中检验一年期的长期规划能力

为了评估长期规划能力,团队使用了 YC-Bench,这是一个模拟初创公司完整一年生命周期的基准测试。模型必须在数百轮决策中管理员工、审查合同、识别恶意客户,并在劳动力成本上升的情况下维持健康的利润率。

Qwen3.7-Max 的总营收达到 208 万美元,并完成了 237 项任务。其前代模型 Qwen3.6-Plus 的成绩是 105 万美元,而 Qwen3.5-Plus 仅实现了 35.2 万美元。

不过,其中一些基准是团队自研的。QwenWebDev、QwenClawBench、CoWorkBench 和 QwenWorldBench 都出自 Qwen 团队之手。这里展示的每一项结果均为自报。关于扩展动态和方法论的更深入分析,将在即将发布的技术报告中给出。

除了常见应用场景外,团队还展示了 Qwen3.7-Max 如何操控一只四足机器人。借助其自有的机器人框架和配套的导航模型,这个语言模型引导机器人穿行于物理空间中。

来源与参考

  1. 原始链接
  2. Alibaba's latest AI model ran autonomously for 35 hours to optimize code for its own custom chip

收录于 2026-05-24