Google 推出 Gemini 3.5 实时翻译

Google DeepMind News·6月9日 23:16 UTC·作者 Anuda Weerasinghe

关键信息

Google 表示，该模型会在上下文质量和即时性之间做平衡，因此通常只比说话者落后几秒，并且针对嘈杂、不可预测的环境做了鲁棒性设计。此次发布覆盖 Gemini Live API 和 Google AI Studio 的开发者预览、面向部分企业用户的 Google Meet 私测，以及 Android 和 iOS 上的 Google Translate 应用。

资讯摘要

Google 表示，翻译一直是其机器学习历程的重要部分，过去二十年里已经为全球数十亿用户、每月超过一万亿个词提供了翻译服务。现在，公司推出了 Gemini 3.5 Live Translate，这是其最新的实时语音转语音音频模型。该模型可自动识别 70 多种语言，并生成听起来自然流畅的译音。Google 说它会尽量保留原说话者的语调、节奏和音高，让译出来的声音更接近原声。与需要等待说话者说完的逐轮翻译系统不同，这个模型会持续生成语音。

Google 表示，它在“多等一点以获得更多上下文”和“尽快翻译以保持同步”之间做平衡，因此在对话中通常只会落后说话者几秒。该功能从今天起开始向多个产品滚动发布：开发者可通过 Gemini Live API 和 Google AI Studio 进入公开预览，企业用户本月可在 Google Meet 中获得私测权限，普通用户则可在 Android 和 iOS 版 Google Translate 中使用。Google Meet 的语音翻译将从此前仅支持 5 种语言，扩展到 70 多种语言，并且在一次会议中支持 2000 多种语言组合，之前则主要局限于与英语之间的翻译。Google 还提到，Translate 应用的 Live translate 功能可以配合耳机使用，让翻译体验更顺畅；在 Android 上还会推出新的“听取模式”，可直接通过手机听筒播放译音。文章最后提到，Grab、CJ ENM、LiveKit 等合作伙伴和早期测试方对该模型给出了积极反馈，认为其翻译质量、准确率和低延迟表现都很出色。

资讯正文

借助 Gemini 3.5 Live Translate 实现流畅、自然的语音翻译

二十年前，Google 的翻译业务最初只是我们开创性的机器学习实验之一，目标是将语言科学转化为人与人连接的魔力。如今，这项实验已经走出很远：我们每个月在产品中为数十亿用户翻译的文字超过一万亿个。

今天，我们迈出下一步，推出 Gemini 3.5 Live Translate——我们最新的实时语音到语音翻译音频模型。

该模型可自动检测 70 多种语言，并生成流畅、自然的译文语音，保留说话者的语调、节奏和音高。不同于轮次式系统必须等说话者讲完后才回应，3.5 Live Translate 会持续生成语音，在等待更多上下文以提升质量与即时翻译以保持与说话者同步之间取得平衡。它能提供流畅的音频输出，不会出现尴尬停顿，并且在整个会话过程中始终只比说话者慢几秒。

Gemini 3.5 Live Translate 今天起开始在 Google 产品中推出：

- 面向开发者：通过 Gemini Live API 和 Google AI Studio 进入公开预览

- 面向企业：本月起在 Google Meet 中进入私有预览

- 面向所有人：通过 Android 和 iOS 版 Google 翻译提供

使用 3.5 Live Translate 构建应用

Gemini 3.5 Live Translate 会在语音流式传输时进行处理，从而实现跨语言更无缝的连接。该模型支持多语言输入，无需手动配置设置。同时，其出色的抗噪能力确保应用能够应对嘈杂、不可预测的环境。你可以利用它来帮助实现多语言通话、会议、课程、广播等场景中的实时口译。

观看 Gemini Live API 的实际演示，了解它如何实现配音和多语言同步翻译。你也可以在 Gemini Cookbook 中查看演示或更多示例代码。

通过使用 Gemini Live API，Agora、Fishjam、LiveKit、Pipecat 和 Vision Agents 等开发者平台让开发者能够轻松构建和部署语音翻译应用。这些集成处理了复杂的实时媒体流基础设施，因此开发者可以专注于用户体验。

我们在 Grab 的合作伙伴正在测试这款模型，以便在接客地点实现司机和乘客之间近实时的多语言沟通。这些用户每月通过 Grab 完成超过 1000 万次语音通话。

阅读早期评价

除 Grab 之外，CJ ENM、LiveKit 以及其他公司也对 3.5 Live Translate 表达了积极反馈，强调了它令人印象深刻的翻译质量、准确性和低延迟：

在视频会议中体验 3.5 Live Translate

Google Meet 中的语音翻译很快将使用 3.5 Live Translate，并将通过以下方式提升体验：

- 提供 70 多种语言，较此前仅支持五种语言的限制有了提升，

- 在一场会议中支持超过 2000 多种语言组合的对话，相比此前只能在英语之间进行互译的状态有了扩展，

更新界面，以便即时获取语音翻译。

我们将于本月开始，面向部分企业版 Google Workspace 客户开启这一更新的私密预览，随后将在今年晚些时候向更广泛的用户推出。

在 Android 或 iOS 上的 Google 翻译应用中获取 3.5 Live Translate

该模型也正在全球范围内向 Android 和 iOS 版 Google 翻译应用推送。使用 Live translate 功能时，只需连接任意一副耳机，就能体验更流畅的翻译，并在 70 多种语言之间尽可能还原说话者的语气。

对于 Android 用户，我们还开始推出搭载 3.5 Live Translate 的新“聆听模式”，让你可以直接通过手机听筒听到翻译内容。只需像接普通电话一样把手机贴近耳朵，翻译后的音频就会直接传送给你。当你想快速听取翻译、又不希望其他人听到，而且手边没有耳机时，这种新体验会很有帮助。

使用新的聆听模式，用户可以通过手机听筒直接听到西班牙语导览的近实时英语翻译。

带有 SynthID 水印

我们所有由模型生成的音频都带有 SynthID 水印。这种不可感知的水印直接嵌入音频输出中，确保 AI 生成内容始终可被检测，有助于防止错误信息传播。有关我们在安全与责任方面做法的详细信息，请查看模型卡。

来源与参考

收录于 2026-06-10