谷歌发布Gemini 3.1 Flash Live，让语音AI更自然可靠

Google AI Blog·3月26日 23:21 UTC·作者 Valeria Wu

关键信息

它通过Gemini Live API支持低延迟流式传输，内置SynthID水印用于识别AI生成音频，并能有效处理干扰、语调变化和长距离推理场景。

资讯摘要

谷歌发布了最新的音频语音模型Gemini 3.1 Flash Live，可在搜索实时、Gemini实时以及企业客户服务中提供更快、更自然的实时对话。开发者可通过Google AI Studio的Gemini Live API接入此模型。

该模型在ComplexFuncBench Audio（90.8%）和Audio MultiChallenge（36.1%）等基准测试中表现优异，具备强大的多步骤任务执行能力和真实环境下的鲁棒性。它还支持超过200个国家和地区，实现多语言交互，并通过不可见的SynthID水印标记AI生成音频，防止虚假信息传播。

资讯正文

Gemini 3.1 Flash Live：让语音AI更自然、更可靠

今天，我们通过Gemini 3.1 Flash Live进一步提升Gemini的实时对话能力。这是目前质量最高的音频和语音模型，具备下一代以语音为主导的人工智能所需的响应速度与自然节奏，为开发者、企业及普通用户带来更加直观的体验。

3.1 Flash Live已在Google多项产品中上线：

- 开发者可通过Google AI Studio中的Gemini Live API预览使用

- 企业客户可在Gemini Enterprise for Customer Experience中使用

- 普通用户可通过Search Live和Gemini Live体验

对开发者而言：更强的推理与任务执行能力

我们提升了3.1 Flash Live的整体性能，使其在构建可规模化完成复杂任务的语音优先代理时更具可靠性。在ComplexFuncBench Audio基准测试中（该测试衡量多步骤函数调用并考虑多种约束条件），其得分达到90.8%，领先于此前的模型。

在Scale AI的Audio MultiChallenge基准测试中，开启“思考模式”后，3.1 Flash Live得分为36.1%。该测试专门评估复杂指令遵循能力和长周期推理能力，同时应对真实语音场景中常见的打断和犹豫。

3.1 Flash Live还增强了语调理解能力，使对话更加自然。在Gemini Enterprise for Customer Experience中，它比2.5 Flash Native Audio更能识别音高、语速等声学细节，并能更好地根据用户表达出的挫败感或困惑动态调整回应。

3.1 Flash Live让你能够构建适应嘈杂环境的语音代理，处理复杂任务。

演示示例基于Gemini 3.1 Pro打造，由3.1 Flash Live驱动。

3.1 Flash Live支持你用语音编写代码并快速迭代。

Verizon、LiveKit和Home Depot等公司已对3.1 Flash Live在工作流中的表现给予积极反馈，特别指出其对话更自然、更流畅。

对所有人而言：更自然、更直观的交互体验

在Gemini Live和Search Live中，3.1 Flash Live模型提供更实用且更自然的回答，无论你是提出日常简单问题，还是进行深度对话。

得益于3.1 Flash Live模型的支持，Gemini Live相比旧版本响应更快，且能将对话线索延续两倍时间，确保你在长时间头脑风暴过程中保持思路连贯。

3.1 Flash Live让Gemini Live更快、更贴心。

3.1 Flash Live本身具备多语言特性，这也推动了本周Search Live的全球扩展。借助此次发布，来自200多个国家和地区的人们现在可以用自己偏好的语言与Search进行实时、多模态对话。

在Search Live中使用3.1 Flash Live获取实时故障排查帮助

尝试Gemini 3.1 Flash Live

所有由 3.1 Flash Live 生成的音频均会嵌入 SynthID 水印。这种不可察觉的水印直接交织在音频输出中，有助于可靠地识别 AI 生成内容，从而防止虚假信息传播。有关我们在安全与责任方面的做法详情，请参阅模型卡片。

从今天起，体验 3.1 Flash Live 的自然性和可靠性。我们期待看到您如何与它互动并基于它进行开发。

来源与参考

收录于 2026-03-27