微软MAI-Transcribe-1速度提升2.5倍,支持25种语言

The Decoder··作者 Matthias Bastian

关键信息

该模型在背景噪音、低质量音频和多人重叠说话等复杂场景下表现优异。开发者可通过Microsoft Foundry和AI Playground以公共预览形式试用。

资讯摘要

微软发布了MAI-Transcribe-1语音转文字模型,支持25种语言,在FLEURS基准测试中词错误率最低,优于Whisper-large-V3和GPT-Transcribe等模型。它比微软之前的Azure Fast服务快2.5倍,每小时音频成本为0.36美元。该模型已集成到Copilot Voice和Microsoft Teams中,结合MAI-Voice-1和语言模型可实现更高质量的语音代理功能。

开发者可通过Microsoft Foundry和AI Playground试用。Cohere和Mistral也推出了性能相当的开源替代方案,显示出该领域的强劲发展势头。

微软MAI-Transcribe-1速度提升2.5倍,支持25种语言

资讯正文

微软的MAI-Transcribe-1每小时音频处理速度比前代快2.5倍,费用为0.36美元

微软推出了MAI-Transcribe-1语音转文字模型,支持25种语言,其在FLEURS基准测试中的词错误率低于所有已测试模型,包括Scribe v2、Whisper-large-V3、GPT-Transcribe和Gemini 3.1 Flash-Lite。微软表示,该模型还能应对背景噪音、音频质量差和多人重叠说话等复杂录音环境。

微软正在将MAI-Transcribe-1逐步应用于Copilot Voice和Microsoft Teams。开发者可以通过Microsoft Foundry和Microsoft AI Playground以公共预览版形式体验该模型。该模型运行速度是微软此前Azure Fast产品的2.5倍,每小时音频处理成本为0.36美元。微软称,结合MAI-Voice-1和语言模型,该技术还可用于构建语音代理。

Cohere和Mistral最近也发布了性能相当的开源替代方案。

来源与参考

  1. 原始链接
  2. Microsoft's MAI-Transcribe-1 runs 2.5x faster than its predecessor at $0.36 per audio hour

收录于 2026-04-03