微软发布三大基础AI模型以抗衡竞争对手

TechCrunch AI··作者 Rebecca Szkutak

关键信息

MAI-Transcribe-1支持25种语言,速度比Azure Fast快2.5倍;MAI-Voice-1可在一秒内生成60秒音频并支持自定义声音。这些模型由微软MAI超级智能团队开发,负责人是Mustafa Suleyman。

资讯摘要

微软AI推出了三种新的基础模型——MAI-Transcribe-1、MAI-Voice-1和MAI-Image-2,分别用于文本、语音和图像生成。这些模型现已在微软Foundry和MAI Playground上公开提供,定价具有竞争力。这一发布凸显了微软打造独立AI平台的雄心,尽管仍与OpenAI保持合作关系。

公司声称这些模型性能更优且成本低于谷歌和OpenAI等竞争对手。这些模型由Mustafa Suleyman领导的MAI超级智能团队开发,他强调以人类为中心的设计理念。微软还重申了对OpenAI的长期承诺,此前双方重新谈判了合作协议,使这项研究得以推进。

微软发布三大基础AI模型以抗衡竞争对手

资讯正文

微软AI研究实验室周四宣布推出三种基础人工智能模型,可生成文本、语音和图像。

这一发布标志着微软持续构建自身多模态AI模型栈的努力,以与竞争对手的人工智能实验室展开竞争——尽管它仍与OpenAI保持合作关系。

据公司发布的新闻稿称,MAI-Transcribe-1可将25种不同语言的语音转录为文字,速度比微软Azure Fast服务快2.5倍。MAI-Voice-1是一款音频生成模型,可在一秒内生成60秒的音频,并支持用户创建自定义语音。MAI-Image-2则是一个视频生成模型。

MAI-Image-2最初于3月19日在MAI Playground(一款新的大型语言模型测试软件)上线。现在,这三款模型均已通过Microsoft Foundry发布,其中转录和语音模型也已在MAI Playground中提供。

这些模型由微软AI超级智能团队开发,该团队由微软AI首席执行官穆斯塔法·苏莱曼领导,该团队于2025年11月成立并正式公布。

苏莱曼在博客文章中写道:“在微软AI,我们正在打造以人为本的人工智能。我们在构建AI模型时有明确的理念——以人类为中心,优化人们真实的沟通方式,并面向实际应用场景进行训练。未来你会看到更多模型陆续出现在Foundry平台以及微软的产品和体验中。”

在日益拥挤的大语言模型市场中,微软表示,这些模型的一个卖点是价格低于谷歌和OpenAI的同类产品。

在越来越激烈的AI竞争环境中,微软正通过这些新模型强化其技术布局。

MAI-Transcribe-1每小时起价为0.36美元;MAI-Voice-1每百万字符起价22美元;MAI-Image-2对文本输入每百万token收费5美元,对图像输出每百万token收费33美元。

尽管推出了自己的模型,苏莱曼在接受VentureBeat采访时重申了微软对与OpenAI合作的承诺——不过他告诉《韦尔格》(The Verge),最近对这项合作的重新谈判使微软得以真正推进超级智能研究。

微软已向AI研究实验室投资超过130亿美元,并通过多年合作协议将其模型集成到各类产品中。在芯片方面,微软既生产自有芯片,也从外部供应商采购。

来源与参考

  1. 原始链接
  2. Microsoft takes on AI rivals with three new foundational models | TechCrunch

收录于 2026-04-03