DeepL推出语音翻译套件及API，拓展实时语音翻译能力

TechCrunch AI·4月16日 16:00 UTC·作者 Ivan Mehta

关键信息

当前系统先将语音转为文本，再进行翻译，最后合成音频；但DeepL计划未来开发无需中间文本步骤的端到端语音翻译模型。

资讯摘要

以高质量文本翻译著称的DeepL，现已进入语音翻译领域，推出一套针对会议、移动应用和一线员工使用场景的实时对话产品。公司还发布了API，让开发者能将其技术集成到呼叫中心等定制应用中。它提供Zoom和Microsoft Teams插件，可在多语种通话中实时播放翻译音频或显示屏幕文字。

用户可通过二维码加入群组讨论，系统还能学习行业术语。尽管DeepL掌控整个技术栈，但仍承认延迟与准确率是实时语音翻译的核心挑战。

资讯正文

DeepL，这家以文本翻译闻名的公司，今天发布了一套语音对语音翻译工具，涵盖会议、移动和网页对话以及一线工作人员通过定制应用进行的群体对话等使用场景。该公司还推出了一个API，让外部开发者和企业可以基于DeepL的技术构建针对特定用途的应用，例如呼叫中心。

“在多年专注于文本翻译后，语音翻译对我们来说是一个自然的延伸，”DeepL首席执行官雅雷克·库蒂洛夫斯基在接受TechCrunch采访时说，“我们在文本翻译和文档翻译方面已经取得了长足进步，但我们认为实时语音翻译领域还没有一款出色的产品。”

库蒂洛夫斯基表示，开发实时翻译产品的主要挑战在于平衡延迟（即说话人发声与翻译音频播放之间的时间差）与保持准确结果之间的关系。

DeepL正在为Zoom和微软Teams等平台推出插件，用户可以在他人用母语讲话时实时听到翻译后的语音，也可以在屏幕上同步查看实时翻译的文字。目前该功能处于早期访问阶段，公司正邀请组织加入等待名单。此外，DeepL还提供适用于面对面或远程场景的移动端和网页对话产品。

DeepL还允许用户在培训课程或研讨会等群体环境中参与对话，参与者可通过扫描二维码加入。

DeepL表示，其语音到语音技术还能学习并适应自定义词汇，例如行业术语、公司名称和个人姓名。

库蒂洛夫斯基指出，人工智能正在重新定义未来几年客户服务的形态。他提到，翻译层可以帮助企业在缺乏合格人员且人力成本高昂的语言环境中提供支持。

在Disrupt遇见你的下一个投资人或投资组合初创企业

你的下一轮融资、下一个招聘机会、下一个突破性机遇。在TechCrunch Disrupt 2026大会上找到它，届时超过1万名创始人、投资者和技术领袖将齐聚三天，参加250多场实战型讲座、建立重要人脉，并见证市场变革性的创新。立即注册可节省高达410美元。

该公司表示，它掌控了整个语音到语音技术栈。不过当前系统仍需先将语音转为文字，再进行翻译，最后将译文转回语音。DeepL认为，由于多年来专注于文本翻译，他们在翻译质量上具有优势。未来，公司希望开发一种端到端的语音翻译模型，完全跳过文本转换这一步骤。

DeepL面临来自多家资金雄厚的初创企业的竞争，这些公司在该领域的相邻方向上也展开了布局。Sanas去年从Quadrille Capital和Teleperformance获得6500万美元融资，利用AI实现说话者口音的实时调整——这项工具主要面向呼叫中心员工。

总部位于迪拜的Camb.AI专注于媒体和娱乐公司的语音合成与翻译，帮助他们大规模地对视频内容进行配音和本地化处理。

DeepL，以其文本翻译闻名，现在希望实现你的语音翻译。

Palabra公司由Reddit联合创始人亚历克斯·欧尼安（Alexis Ohanian）的基金Seven Seven Six支持，正在开发一种实时语音翻译引擎，旨在保留原说话者的语音特征和语义内容，这使其与DeepL当前正在构建的产品形成更直接的竞争关系。

来源与参考