Cohere发布开源语音模型Transcribe用于转录

TechCrunch AI·3月26日 21:30 UTC·作者 Ivan Mehta

关键信息

Transcribe每分钟可处理525分钟音频，在基准测试中优于多个商用模型，但在葡萄牙语、德语和西班牙语转录任务中表现略逊于竞争对手。

资讯摘要

Cohere推出了其首个开源语音模型Transcribe，专为转录任务如笔记记录和语音分析设计。该模型仅含20亿参数，轻量级可运行在消费级GPU上，支持包括英语、中文、日语和阿拉伯语在内的14种语言。它在Hugging Face开放ASR排行榜上取得了5.42%的词错误率，低于Zoom Scribe v1和Qwen3-ASR-1.7B等竞品。

人类评估者认为其准确性、连贯性和可用性更高，胜出率为61%。但其在葡萄牙语、德语和西班牙语转录中表现稍弱。Cohere计划将Transcribe集成到其企业平台North，并通过Model Vault免费提供API接口。

资讯正文

企业人工智能公司Cohere周四发布了其首款语音模型：Transcribe是一款开源自动语音识别模型，可用于笔记记录和语音分析等任务。

该模型参数量仅为20亿，适合使用消费级显卡的用户自行部署。目前支持14种语言：英语、法语、德语、意大利语、西班牙语、葡萄牙语、希腊语、荷兰语、波兰语、中文、日语、韩语、越南语和阿拉伯语。

Cohere表示，Transcribe在Hugging Face开放语音识别（Open ASR）排行榜上优于Zoom Scribe v1、IBM Granite 4.0 1B、ElevenLabs Scribe v2以及Qwen3-ASR-1.7B Speech等模型，平均词错误率（WER）达到5.42%，低于榜单上其他所有模型。

该公司声称，在人工评估其转录结果的准确性、连贯性和可用性时，Transcribe的平均胜率达到了61%。不过，当需要转录葡萄牙语、德语和西班牙语时，该模型的表现落后于竞争对手。

Cohere表示，Transcribe每分钟可处理525分钟音频，这一速度在其同类模型中处于较高水平。

公司计划将Transcribe集成到其企业代理编排平台North中，并通过API免费提供该模型。该模型也将上线Cohere的托管推理平台Model Vault。

随着Granola和Wispr Flow等笔记和语音输入应用需求不断增长，语音识别模型正变得越来越受欢迎。

来源与参考

收录于 2026-03-27