微软AI首席执行官聚焦超智能以推动商业增长

The Verge AI·4月2日 22:00 UTC·作者 Hayden Field

关键信息

MAI-Transcribe-1模型的GPU成本仅为同类模型的一半，可通过微软Foundry和AI游乐场面向商业用户使用。该模型训练数据包括人工标注内容、带噪音的真实场景录音及开放网络数据。

资讯摘要

微软新任AI首席执行官穆斯塔法·苏莱曼正将超智能追求作为一项业务使命，而非理论概念，重点在于提升企业生产力。这一转变源于微软重组AI部门并重新谈判与OpenAI的合作关系，他认为这使公司具备了实现该目标的能力。他强调，超智能意味着构建能为企业创造实际价值的模型。

为此，微软推出了MAI-Transcribe-1语音转录模型，该模型能够处理低质量音频并支持多种语言。该模型由一个精简、灵活的小团队开发，他们摆脱了官僚束缚——这是微软以及Meta和谷歌等科技巨头正在采用的加速创新策略。

资讯正文

微软的新‘超智能’战略聚焦商业领域

穆斯塔法·苏莱曼早已为他的新职位做好了准备。苏莱曼是微软首位人工智能首席执行官，但在今年3月中旬公司进行大规模重组后，他移交了一些职责，并将重心转向追求超智能。尽管这一消息直到上个月才对外公布，但他告诉《连线》杂志，自己已为此准备了多达九个月——尽管正式‘解锁微软追求超智能能力’的是重新谈判微软与OpenAI的合同，但早在合同签署前他就已经开始规划。

‘这一直是一个长期计划，’他说，并补充道：‘实现超智能纯粹是我的关注重点。’

在人工智能行业，‘超智能’（superintelligence）和‘通用人工智能’（AGI）的定义模糊且不断变化。对苏莱曼而言，它严格围绕商业和生产力展开。‘超智能真正关乎的是，这些模型能否为依赖我们提供世界级语言模型的数百万家企业创造产品价值？’苏莱曼表示。‘这才是我们的核心目标。我们希望满足开发者、企业以及众多消费者的需求。’AI公司正面临越来越大的营收压力，微软的计划也呼应了OpenAI的新策略。

微软的重组将企业与消费者团队合并到Copilot AI旗下。虽然苏莱曼仍会负责宏观战略，但此前担任微软AI产品与增长副总裁的雅各布·安德鲁乌（Jacob Andreou）成为新成立团队的执行副总裁，领导工程、增长、产品和设计方面的举措。这一调整为苏莱曼腾出了时间，让他可以专注于超智能研究，并在当前领先AI公司之间竞争加剧、吸引付费用户和企业客户的压力空前巨大的背景下，开发微软前沿的人工智能模型。

本周四，微软发布了一款新的语音转录模型，希望借此实现突破——根据苏莱曼的说法，该模型的GPU成本仅为其他先进模型的一半，对微软而言是一笔‘巨大的成本节约’。

微软将其称为MAI-Transcribe-1，称其通过能够转录会议、为视频添加字幕并分析25种语言的客服通话记录，推动了语音识别技术的前沿发展。微软博客文章称，该模型专为复杂录音条件设计，包括背景噪音、低质量音频和多人重叠对话，训练数据结合了人工筛选和机器转录的文本。苏莱曼表示，原始录音来源包括受控录音棚数据、承包商在嘈杂环境中录制的声音（如繁忙街道或孩子跑动时），以及来自开放网络的海量数据。

除了现有的语音和图像生成模型 MAI-Voice-1 和 MAI-Image-2，新的语音转录模型现已在 Microsoft Foundry 上以及作为新推出的 Microsoft AI Playground 的一部分提供。微软表示，这是这些模型首次“广泛适用于商业用途”。MAI-Transcribe-1 支持 MP3、WAV 和 FLAC 格式的音频文件。

苏莱曼将该新模型在测试中的出色表现归功于一个仅有十人的专注团队。他表示，这个建模团队已“摆脱了所有官僚束缚”，因为有一个外围团队负责管理供应商、寻找可下载的数据等事务。微软在语音和图像生成领域采用了类似的策略，其他公司也做出了类似举措——Meta、亚马逊和谷歌正在尝试扁平化组织结构，而 Anthropic 也表示正在试验让少数开发人员拥有一定计算资源的自由度，以观察他们能取得怎样的成果。

这一新的语音转录模型是苏莱曼实现其目标的一部分：打造一种对普通人真正有用的“以人为本”的人工智能（这是微软偏好的“人类主义超智能”概念的一种变体）。“每个人都会拥有一款真正世界级的AI助手，它值得信赖，站在你这边，与你的利益一致，并为你工作，”他说。

来源与参考

收录于 2026-04-03