谷歌发布Gemini 3.1 Flash TTS,支持多语言且富有表现力的AI语音
Google AI Blog··作者 Vilobh Meshram
关键信息
该模型在Artificial Analysis语音合成排行榜上获得1211分的Elo评分,处于‘性价比最优’区域,且支持原生多人对话模式,使语音交互更加自然。
资讯摘要
Gemini 3.1 Flash TTS是谷歌最新推出的语音合成技术,可在70多种语言中生成高度自然、富有表现力的声音。它引入了音频标签——嵌入文本中的自然语言指令,让用户能精准控制语调、节奏和语气。该模型在人工偏好测试中得分高达1211分,位居行业前列,并内置SynthID水印以识别AI生成音频,防止滥用。
目前可在Google AI Studio(预览版)、Vertex AI(企业预览)和Google Vids(工作区用户)中使用。开发者还能微调语音并导出配置,确保跨应用的一致性。

资讯正文
2026年4月15日
我们的最新音频模型引入了细粒度的音频标签,让您能够精准控制AI语音,实现更具表现力的音频生成。
通用摘要
Gemini 3.1 Flash TTS 已上线,带来更高质量和更高可控性的AI语音。您现在可以使用音频标签,在70多种语言中调整语音风格和语速。您可以在 Google AI Studio、Vertex AI 和 Google Vids 中测试该功能,并且所有音频均会添加 SynthID 水印,以防止虚假信息传播。
要点
“Gemini 3.1 Flash TTS”是一款全新的AI语音模型,具备更强的控制力、表现力和音质。该模型提升了语音质量,使其听起来比以往版本更加自然。通过音频标签,您可以使用自然语言指令来控制语音的风格、节奏和表达方式。开发者可以利用 Google AI Studio 对声音进行微调,并导出设置以确保一致性使用。Gemini 3.1 Flash TTS 支持70多种语言,并采用 SynthID 水印技术识别AI生成的音频。
基础解释
Gemini 3.1 Flash TTS 是一款让计算机语音听起来更真实的新AI。它允许用户通过在文本中使用特殊命令来改变AI说话的方式。这款AI能用70多种语言发声,并在音频中添加隐藏水印,帮助人们识别这是AI生成的内容,而非真人录制。
今天,我们推出 Gemini 3.1 Flash TTS——最新的文本转语音模型,提供更高的可控性、表现力和音质,赋能开发者、企业及普通用户打造下一代AI语音应用。
从今天起,Gemini 3.1 Flash TTS 将逐步上线:
- 开发者可通过 Gemini API 和 Google AI Studio 预览使用
- 企业用户可在 Vertex AI 上预览使用
- Workspace 用户可通过 Google Vids 使用
我们提升了Gemini 3.1 Flash TTS的整体语音质量,使其成为迄今为止最自然、最具表现力的模型。在Artificial Analysis的TTS排行榜上——这是一个衡量数千名盲测人类偏好的基准测试——3.1 Flash TTS取得了令人印象深刻的Elo评分1,211。
Artificial Analysis还将Gemini 3.1 Flash TTS定位在其“最具吸引力的象限”中,因其高质量语音生成与低成本之间的理想平衡而脱颖而出。该模型还具备原生多说话人对话功能,支持70多种语言,并通过自然语言实现精细的创意控制。
新增音频标签,实现更富表现力的语音生成
3.1 Flash TTS还引入了音频标签——一种直观的方式,用于控制声音风格、语速和表达方式。通过将自然语言指令直接嵌入文本输入,您可以以更高的粒度引导AI语音输出。
您现在可以在Google AI Studio中开始尝试这些音频标签及其他开发者体验更新,其中配置化控件让开发者处于“导演席位”:
场景指导:通过定义环境并提供具体的对话指令来设定场景。这种世界构建背景有助于角色保持“人设一致”,并在多轮互动中自然地相互反应。
说话者级特异性:使用独特的音频档案指定角色,再通过导演备注切换语速、语气和口音。利用内联标签,说话者可以从这些高层次设置中灵活调整,实现在句子中间改变表情。
无缝导出:一旦表演达到完美状态,这些精确参数可作为Gemini API代码导出,确保在不同项目和平台上始终如一、易于识别的声音表现。
借助这些新配置,开发者可以针对特定场景提升精度,创造出令人难忘的角色和沉浸式的音频体验。
立即在Google AI Studio Playground中开始高保真语音生成。
面向全球规模打造
Gemini 3.1 Flash TTS在70多种语言中提供高保真语音和更精准的控制。这些核心优化为重要市场带来了先进的风格、节奏和口音控制能力,帮助开发者在全球范围内创建本地化且富有表现力的语音体验。
早期开发者和企业测试者已经看到了3.1 Flash TTS的影响,强调其出色的可控性和表现力。他们告诉我们,音频标签提供了全新的创意精度,将简单的文本转化为高保真的语音表演。
带有SynthID水印
所有由Gemini 3.1 Flash TTS生成的音频均带有SynthID水印。这种不可察觉的水印直接嵌入音频输出中,有助于可靠检测AI生成内容,防止虚假信息传播。有关我们在安全与责任方面的做法,请查阅模型卡片。
来源与参考
收录于 2026-04-16