Build 2026: Microsoft tops Google in image generation while playing catch-up on reasoning

The Decoder·6月3日 18:48 UTC·作者 Maximilian Schreiner

资讯摘要

Build 2026: Microsoft tops Google in image generation while playing catch-up on reasoning Key Points - Microsoft unveiled seven homegrown AI models at Build 2026, including its first reasoning model, MAI-Thinking-1. In benchmarks, it lands roughly on par with Deepseek V3.2. - A new method called "Frontier Tuning" lets companies adapt models to their own workflows using reinforcement learning. Microsoft says tuned models match GPT-5.4 performance at one-tenth the cost. - Microsoft is also launching "Scout," an always-on background agent that handles office tasks like scheduling and meeting prep.

资讯正文

Build 2026：微软在图像生成方面超越谷歌，但在推理能力上仍在追赶

要点

- 微软在 Build 2026 上发布了七款自研 AI 模型，其中包括其首个推理模型 MAI-Thinking-1。在基准测试中，它的表现大致与 Deepseek V3.2 持平。

- 一种名为“Frontier Tuning”的新方法，允许企业利用强化学习将模型适配到自身工作流程。微软表示，经调优的模型能以 GPT-5.4 十分之一的成本达到相当性能。

- 微软还推出了“Scout”，这是一个始终在线的后台代理，可处理日程安排和会议准备等办公任务。与这些软件发布相配套的，还有面向本地开发者的硬件以及一款为 AI 代理打造的新操作系统。

在 Build 2026 上，微软宣布推出七款在内部开发的新 AI 模型，其中包括其首个推理模型。公司还介绍了一种新的调优方法和一个自主后台代理。

核心产品是 MAI-Thinking-1，这是微软的首个推理模型。根据微软 AI 负责人 Mustafa Suleyman 的说法，这是一款拥有 1 万亿参数的模型，其中 350 亿参数处于激活状态，配备 128,000 token 的上下文窗口，专为多步骤指令、长上下文和代码生成而打造。

微软表示，MAI-Thinking-1 在关键的软件工程基准测试中与领先模型表现相当，并且在内部盲测中比 Anthropic 的 Sonnet 4.6 更受青睐。Suleyman 称，该模型是在干净数据上从零开始训练的，没有蒸馏自第三方模型。这无疑是在对其他实验室的做法进行不点名的讽刺。不过，从已公布的基准来看，这款模型的表现大致与 Deepseek V3.2 持平。

一个覆盖六类任务的模型家族

除了这款推理模型之外，MAI 家族还包括另外六个系统。MAI-Code-1-Flash 是一款具备代理能力的编码模型，参数量为 50 亿，微软表示它的能力可与 Anthropic 的 Haiku 相比，但运行成本更低。它已集成到 GitHub Copilot 和 Visual Studio Code 中。

MAI-Image-2.5 负责文本生成图像和图像编辑，在 Arena-Score 图像基准上排名第二，落后于 GPT-Image-2，但领先于谷歌的 Nano-Banana 模型。MAI-Transcribe-1.5 被定位为速度最快的转录模型，支持 43 种语言。MAI-Voice-2 可生成 15 种语言的语音，并能从短样本中克隆声音。

微软表示，所有这些模型都共享相同的数据基础、基础设施和评估流程。它们可通过 Azure Foundry 使用，而且开发者首次可以自行对权重进行微调。

Frontier Tuning 强化了成本优势

微软还将这些模型与一种名为 Frontier Tuning 的新方法结合推出。客户可以使用强化学习环境，让模型直接适配他们自己的工作流程。微软认为，最有价值的训练数据，是代理在组织内部留下的真实工作轨迹。

在一项内部测试中，一款经过 Excel 场景调优的 MAI 模型在性能上与 GPT-5.4 持平，同时运行效率最高可提升 10 倍。在麦肯锡，一款定制化的 MAI 模型在所有测试系统中取得了最高胜率，而且成本同样大约只有十分之一。

Scout 是微软首个始终在线的代理

第三支柱是微软称为“Autopilots”的新型智能体类别。这些是具有自身身份、能够在后台自主工作的持久化智能体。首个产品是 Microsoft Scout，已集成到 Teams、Outlook、OneDrive 和 SharePoint 中。

Scout 的设计目标是跨时区协调会议、准备简报材料、在你的日历中安排即将到来的交付事项，并在决策陷入停滞、可能演变为阻塞之前将其标记出来。通过一个名为 Work IQ 的组件，该智能体会建立关于你如何工作以及你优先考虑什么的上下文记忆。

每个智能体都在各自的 Entra 身份下运行，拥有严格限定的访问权限，并通过 Microsoft Execution Containers 进行沙盒化执行，且对敏感操作必须获得人工批准。凭据也会按每项任务进行范围限定，并从日志中清除。这样是否足够，还有待观察。此前的智能体系统一直都恰好在语言模型与外部数据交汇的那个环节失败。

Scout 将首先通过 Frontier 计划以实验性版本提供。它需要 Intune 配置和 GitHub Copilot 许可证。

硬件、操作系统以及临床模型构成了这项战略的其余部分

这些软件公告同时伴随着更广泛 AI 战略中的另外几项内容。借助 Project Solara，微软正在预览一款基于 Android 的操作系统，旨在跨设备运行智能体，由微软与高通和 MediaTek 共同开发。在 Build मंच上，该公司展示了一个桌面集线器和一个数字徽章，作为可能的外形规格。

在本地 AI 开发方面，微软正在推出 Surface RTX Spark Dev Box，配备英伟达基于 Arm 的 Spark RTX 芯片和 128 GB 统一内存。定价和完整规格尚未公布。

在医疗保健领域，微软宣布与 Mayo Clinic 合作，共同开发一个临床基础模型。该模型将首先部署在 Mayo Clinic 自身的运营中，之后再通过 Azure Foundry 提供。Mayo Clinic 保留所有权。

微软将这一总体目标表述为“Humanist Superintelligence”，即始终作为受人类控制工具的 AI 系统。Suleyman 表示，公司计划在未来一年内迅速扩展算力和能力，部分动力来自微软自家的 Maia 200 芯片。

来源与参考

收录于 2026-06-04