DeepL推出语音到语音翻译功能并提供实时API
TechCrunch AI··作者 Ivan Mehta
关键信息
该系统目前采用三步流程:自动语音识别(ASR)、神经机器翻译(NMT)和文本转语音(TTS);DeepL计划最终开发无需转为文本的端到端语音模型。
资讯摘要
以文本翻译闻名的DeepL现在推出了语音到语音翻译套件,专为会议、移动/网页通话和群组讨论等实时场景设计。产品包含与Zoom和Microsoft Teams的集成,允许听众听到翻译后的音频或在屏幕上阅读翻译内容。API让开发者可以构建定制解决方案,例如用于呼叫中心。
DeepL强调其能适应行业术语的能力,并致力于在保持高准确率的同时降低延迟。该公司掌控整个技术栈,但仍依赖语音→文本→语音的流程,不过未来计划转向真正的端到端语音翻译。

资讯正文
DeepL,这家以文本翻译闻名的公司,今天发布了语音到语音翻译套件,涵盖会议、移动和网页对话以及前线工作人员通过定制应用进行的群组对话等使用场景。该公司还推出了一个API,让外部开发者和企业可以基于DeepL的技术构建针对特定用途的应用,例如呼叫中心。
“在多年专注于文本翻译后,语音翻译对我们来说是一个自然的延伸,”DeepL首席执行官雅雷克·库蒂洛夫斯基在接受TechCrunch采访时说,“我们在文本翻译和文档翻译方面已经取得了长足进步,但我们认为实时语音翻译领域还没有一款出色的产品。”
库蒂洛夫斯基表示,开发实时翻译产品的主要挑战在于平衡延迟(即说话人发声与译文音频播放之间的延迟)与保持准确结果之间的关系。
DeepL正在为Zoom和微软Teams等平台推出插件,用户可以在他人用母语讲话时实时听到翻译后的语音,也可以在屏幕上查看实时翻译的文字内容。目前该功能处于早期访问阶段,公司正邀请组织加入等待名单。此外,DeepL还提供适用于面对面或远程场景的移动端和网页对话产品。
DeepL还允许用户在培训课程或研讨会等群组对话环境中参与,参与者可通过扫描二维码加入。
DeepL表示,其语音到语音技术还能学习并适应自定义词汇,例如行业术语、公司名称和个人姓名。
库蒂洛夫斯基指出,人工智能正在重新定义未来几年客户服务的形态。他强调,翻译层可以帮助公司在缺乏合格人员且雇佣成本高昂的语言环境中提供支持。
在Disrupt遇见你的下一个投资者或投资组合初创企业
你的下一轮融资、下一个招聘机会、下一个突破性机遇——尽在TechCrunch Disrupt 2026,超过1万名创始人、投资者和技术领袖齐聚三日,参加250多场实战研讨、建立关键人脉并见证市场变革的创新成果。立即注册可节省高达410美元。
该公司称,其掌控了完整的语音到语音技术栈。不过当前系统仍需先将语音转为文字,再进行翻译,最后将译文重新转换成语音。DeepL认为,由于多年来专注文本翻译,他们在翻译质量上具有优势。未来,公司希望开发端到端的语音翻译模型,彻底跳过文字中间步骤。
DeepL面临来自多家资金雄厚的初创企业的竞争,这些企业也在相关领域发力。Sanas去年从Quadrille Capital和Teleperformance筹集了6500万美元,利用AI技术实现实时修改说话者的口音,主要面向呼叫中心员工。
总部位于迪拜的Camb.AI专注于媒体和娱乐公司的语音合成与翻译,帮助亚马逊云科技(Amazon Web Services)等客户大规模完成视频内容的配音和本地化工作。
DeepL,以其文本翻译闻名,现在希望实现你的语音翻译。
Palabra公司由Reddit联合创始人亚历克斯·欧尼安(Alexis Ohanian)的基金Seven Seven Six支持,正在开发一种实时语音翻译引擎,旨在保留原说话者的语音特征和语义内容,这使其与DeepL当前正在构建的技术形成更直接的竞争关系。
来源与参考