微软发布三大基础AI模型以抗衡竞争对手

TechCrunch AI·4月3日 00:48 UTC·作者 Rebecca Szkutak

关键信息

MAI-Transcribe-1支持25种语言，速度比Azure Fast快2.5倍；MAI-Voice-1可在一秒内生成60秒音频并支持自定义声音。这些模型由微软MAI超级智能团队开发，负责人是Mustafa Suleyman。

资讯摘要

微软AI推出了三种新的基础模型——MAI-Transcribe-1、MAI-Voice-1和MAI-Image-2，分别用于文本、语音和图像生成。这些模型现已在微软Foundry和MAI Playground上公开提供，定价具有竞争力。这一发布凸显了微软打造独立AI平台的雄心，尽管仍与OpenAI保持合作关系。

公司声称这些模型性能更优且成本低于谷歌和OpenAI等竞争对手。这些模型由Mustafa Suleyman领导的MAI超级智能团队开发，他强调以人类为中心的设计理念。微软还重申了对OpenAI的长期承诺，此前双方重新谈判了合作协议，使这项研究得以推进。

资讯正文

微软AI研究实验室周四宣布推出三种基础人工智能模型，可生成文本、语音和图像。

这一发布标志着微软持续构建自身多模态AI模型栈的努力，以与竞争对手的人工智能实验室展开竞争——尽管它仍与OpenAI保持合作关系。

据公司发布的新闻稿称，MAI-Transcribe-1可将25种不同语言的语音转录为文字，速度比微软Azure Fast服务快2.5倍。MAI-Voice-1是一款音频生成模型，可在一秒内生成60秒的音频，并支持用户创建自定义语音。MAI-Image-2则是一个视频生成模型。

MAI-Image-2最初于3月19日在MAI Playground（一款新的大型语言模型测试软件）上线。现在，这三款模型均已通过Microsoft Foundry发布，其中转录和语音模型也已在MAI Playground中提供。

这些模型由微软AI超级智能团队开发，该团队由微软AI首席执行官穆斯塔法·苏莱曼领导，该团队于2025年11月成立并正式公布。

苏莱曼在博客文章中写道：“在微软AI，我们正在打造以人为本的人工智能。我们在构建AI模型时有明确的理念——以人类为中心，优化人们真实的沟通方式，并面向实际应用场景进行训练。未来你会看到更多模型陆续出现在Foundry平台以及微软的产品和体验中。”

在日益拥挤的大语言模型市场中，微软表示，这些模型的一个卖点是价格低于谷歌和OpenAI的同类产品。

在越来越激烈的AI竞争环境中，微软正通过这些新模型强化其技术布局。

MAI-Transcribe-1每小时起价为0.36美元；MAI-Voice-1每百万字符起价22美元；MAI-Image-2对文本输入每百万token收费5美元，对图像输出每百万token收费33美元。

尽管推出了自己的模型，苏莱曼在接受VentureBeat采访时重申了微软对与OpenAI合作的承诺——不过他告诉《韦尔格》（The Verge），最近对这项合作的重新谈判使微软得以真正推进超级智能研究。

微软已向AI研究实验室投资超过130亿美元，并通过多年合作协议将其模型集成到各类产品中。在芯片方面，微软既生产自有芯片，也从外部供应商采购。

来源与参考

收录于 2026-04-03