Cohere发布开源语音模型Transcribe用于转录
TechCrunch AI··作者 Ivan Mehta
关键信息
Transcribe每分钟可处理525分钟音频,在基准测试中优于多个商用模型,但在葡萄牙语、德语和西班牙语转录任务中表现略逊于竞争对手。
资讯摘要
Cohere推出了其首个开源语音模型Transcribe,专为转录任务如笔记记录和语音分析设计。该模型仅含20亿参数,轻量级可运行在消费级GPU上,支持包括英语、中文、日语和阿拉伯语在内的14种语言。它在Hugging Face开放ASR排行榜上取得了5.42%的词错误率,低于Zoom Scribe v1和Qwen3-ASR-1.7B等竞品。
人类评估者认为其准确性、连贯性和可用性更高,胜出率为61%。但其在葡萄牙语、德语和西班牙语转录中表现稍弱。Cohere计划将Transcribe集成到其企业平台North,并通过Model Vault免费提供API接口。

资讯正文
企业人工智能公司Cohere周四发布了其首款语音模型:Transcribe是一款开源自动语音识别模型,可用于笔记记录和语音分析等任务。
该模型参数量仅为20亿,适合使用消费级显卡的用户自行部署。目前支持14种语言:英语、法语、德语、意大利语、西班牙语、葡萄牙语、希腊语、荷兰语、波兰语、中文、日语、韩语、越南语和阿拉伯语。
Cohere表示,Transcribe在Hugging Face开放语音识别(Open ASR)排行榜上优于Zoom Scribe v1、IBM Granite 4.0 1B、ElevenLabs Scribe v2以及Qwen3-ASR-1.7B Speech等模型,平均词错误率(WER)达到5.42%,低于榜单上其他所有模型。
该公司声称,在人工评估其转录结果的准确性、连贯性和可用性时,Transcribe的平均胜率达到了61%。不过,当需要转录葡萄牙语、德语和西班牙语时,该模型的表现落后于竞争对手。
Cohere表示,Transcribe每分钟可处理525分钟音频,这一速度在其同类模型中处于较高水平。
公司计划将Transcribe集成到其企业代理编排平台North中,并通过API免费提供该模型。该模型也将上线Cohere的托管推理平台Model Vault。
随着Granola和Wispr Flow等笔记和语音输入应用需求不断增长,语音识别模型正变得越来越受欢迎。
来源与参考
收录于 2026-03-27