谷歌发布Gemini 3.1 Flash TTS，支持多语言且富有表现力的AI语音

Google AI Blog·4月15日 23:00 UTC·作者 Vilobh Meshram

关键信息

该模型在Artificial Analysis语音合成排行榜上获得1211分的Elo评分，处于‘性价比最优’区域，且支持原生多人对话模式，使语音交互更加自然。

资讯摘要

Gemini 3.1 Flash TTS是谷歌最新推出的语音合成技术，可在70多种语言中生成高度自然、富有表现力的声音。它引入了音频标签——嵌入文本中的自然语言指令，让用户能精准控制语调、节奏和语气。该模型在人工偏好测试中得分高达1211分，位居行业前列，并内置SynthID水印以识别AI生成音频，防止滥用。

目前可在Google AI Studio（预览版）、Vertex AI（企业预览）和Google Vids（工作区用户）中使用。开发者还能微调语音并导出配置，确保跨应用的一致性。

谷歌发布Gemini 3.1 Flash TTS，支持多语言且富有表现力的AI语音

资讯正文

2026年4月15日

我们的最新音频模型引入了细粒度的音频标签，让您能够精准控制AI语音，实现更具表现力的音频生成。

通用摘要

Gemini 3.1 Flash TTS 已上线，带来更高质量和更高可控性的AI语音。您现在可以使用音频标签，在70多种语言中调整语音风格和语速。您可以在 Google AI Studio、Vertex AI 和 Google Vids 中测试该功能，并且所有音频均会添加 SynthID 水印，以防止虚假信息传播。

要点

“Gemini 3.1 Flash TTS”是一款全新的AI语音模型，具备更强的控制力、表现力和音质。该模型提升了语音质量，使其听起来比以往版本更加自然。通过音频标签，您可以使用自然语言指令来控制语音的风格、节奏和表达方式。开发者可以利用 Google AI Studio 对声音进行微调，并导出设置以确保一致性使用。Gemini 3.1 Flash TTS 支持70多种语言，并采用 SynthID 水印技术识别AI生成的音频。

基础解释

Gemini 3.1 Flash TTS 是一款让计算机语音听起来更真实的新AI。它允许用户通过在文本中使用特殊命令来改变AI说话的方式。这款AI能用70多种语言发声，并在音频中添加隐藏水印，帮助人们识别这是AI生成的内容，而非真人录制。

今天，我们推出 Gemini 3.1 Flash TTS——最新的文本转语音模型，提供更高的可控性、表现力和音质，赋能开发者、企业及普通用户打造下一代AI语音应用。

从今天起，Gemini 3.1 Flash TTS 将逐步上线：

- 开发者可通过 Gemini API 和 Google AI Studio 预览使用

- 企业用户可在 Vertex AI 上预览使用

- Workspace 用户可通过 Google Vids 使用

我们提升了Gemini 3.1 Flash TTS的整体语音质量，使其成为迄今为止最自然、最具表现力的模型。在Artificial Analysis的TTS排行榜上——这是一个衡量数千名盲测人类偏好的基准测试——3.1 Flash TTS取得了令人印象深刻的Elo评分1,211。

Artificial Analysis还将Gemini 3.1 Flash TTS定位在其“最具吸引力的象限”中，因其高质量语音生成与低成本之间的理想平衡而脱颖而出。该模型还具备原生多说话人对话功能，支持70多种语言，并通过自然语言实现精细的创意控制。

新增音频标签，实现更富表现力的语音生成

3.1 Flash TTS还引入了音频标签——一种直观的方式，用于控制声音风格、语速和表达方式。通过将自然语言指令直接嵌入文本输入，您可以以更高的粒度引导AI语音输出。

您现在可以在Google AI Studio中开始尝试这些音频标签及其他开发者体验更新，其中配置化控件让开发者处于“导演席位”：

场景指导：通过定义环境并提供具体的对话指令来设定场景。这种世界构建背景有助于角色保持“人设一致”，并在多轮互动中自然地相互反应。

说话者级特异性：使用独特的音频档案指定角色，再通过导演备注切换语速、语气和口音。利用内联标签，说话者可以从这些高层次设置中灵活调整，实现在句子中间改变表情。

无缝导出：一旦表演达到完美状态，这些精确参数可作为Gemini API代码导出，确保在不同项目和平台上始终如一、易于识别的声音表现。

借助这些新配置，开发者可以针对特定场景提升精度，创造出令人难忘的角色和沉浸式的音频体验。

立即在Google AI Studio Playground中开始高保真语音生成。

面向全球规模打造

Gemini 3.1 Flash TTS在70多种语言中提供高保真语音和更精准的控制。这些核心优化为重要市场带来了先进的风格、节奏和口音控制能力，帮助开发者在全球范围内创建本地化且富有表现力的语音体验。

早期开发者和企业测试者已经看到了3.1 Flash TTS的影响，强调其出色的可控性和表现力。他们告诉我们，音频标签提供了全新的创意精度，将简单的文本转化为高保真的语音表演。

带有SynthID水印

所有由Gemini 3.1 Flash TTS生成的音频均带有SynthID水印。这种不可察觉的水印直接嵌入音频输出中，有助于可靠检测AI生成内容，防止虚假信息传播。有关我们在安全与责任方面的做法，请查阅模型卡片。

来源与参考

收录于 2026-04-16