谷歌发布Gemini 3.1 Flash Live,让语音AI更自然可靠
Google AI Blog··作者 Valeria Wu
关键信息
它通过Gemini Live API支持低延迟流式传输,内置SynthID水印用于识别AI生成音频,并能有效处理干扰、语调变化和长距离推理场景。
资讯摘要
谷歌发布了最新的音频语音模型Gemini 3.1 Flash Live,可在搜索实时、Gemini实时以及企业客户服务中提供更快、更自然的实时对话。开发者可通过Google AI Studio的Gemini Live API接入此模型。
该模型在ComplexFuncBench Audio(90.8%)和Audio MultiChallenge(36.1%)等基准测试中表现优异,具备强大的多步骤任务执行能力和真实环境下的鲁棒性。它还支持超过200个国家和地区,实现多语言交互,并通过不可见的SynthID水印标记AI生成音频,防止虚假信息传播。

资讯正文
Gemini 3.1 Flash Live:让语音AI更自然、更可靠
今天,我们通过Gemini 3.1 Flash Live进一步提升Gemini的实时对话能力。这是目前质量最高的音频和语音模型,具备下一代以语音为主导的人工智能所需的响应速度与自然节奏,为开发者、企业及普通用户带来更加直观的体验。
3.1 Flash Live已在Google多项产品中上线:
- 开发者可通过Google AI Studio中的Gemini Live API预览使用
- 企业客户可在Gemini Enterprise for Customer Experience中使用
- 普通用户可通过Search Live和Gemini Live体验
对开发者而言:更强的推理与任务执行能力
我们提升了3.1 Flash Live的整体性能,使其在构建可规模化完成复杂任务的语音优先代理时更具可靠性。在ComplexFuncBench Audio基准测试中(该测试衡量多步骤函数调用并考虑多种约束条件),其得分达到90.8%,领先于此前的模型。
在Scale AI的Audio MultiChallenge基准测试中,开启“思考模式”后,3.1 Flash Live得分为36.1%。该测试专门评估复杂指令遵循能力和长周期推理能力,同时应对真实语音场景中常见的打断和犹豫。
3.1 Flash Live还增强了语调理解能力,使对话更加自然。在Gemini Enterprise for Customer Experience中,它比2.5 Flash Native Audio更能识别音高、语速等声学细节,并能更好地根据用户表达出的挫败感或困惑动态调整回应。
3.1 Flash Live让你能够构建适应嘈杂环境的语音代理,处理复杂任务。
演示示例基于Gemini 3.1 Pro打造,由3.1 Flash Live驱动。
3.1 Flash Live支持你用语音编写代码并快速迭代。
Verizon、LiveKit和Home Depot等公司已对3.1 Flash Live在工作流中的表现给予积极反馈,特别指出其对话更自然、更流畅。
对所有人而言:更自然、更直观的交互体验
在Gemini Live和Search Live中,3.1 Flash Live模型提供更实用且更自然的回答,无论你是提出日常简单问题,还是进行深度对话。
得益于3.1 Flash Live模型的支持,Gemini Live相比旧版本响应更快,且能将对话线索延续两倍时间,确保你在长时间头脑风暴过程中保持思路连贯。
3.1 Flash Live让Gemini Live更快、更贴心。
3.1 Flash Live本身具备多语言特性,这也推动了本周Search Live的全球扩展。借助此次发布,来自200多个国家和地区的人们现在可以用自己偏好的语言与Search进行实时、多模态对话。
在Search Live中使用3.1 Flash Live获取实时故障排查帮助
尝试Gemini 3.1 Flash Live
所有由 3.1 Flash Live 生成的音频均会嵌入 SynthID 水印。这种不可察觉的水印直接交织在音频输出中,有助于可靠地识别 AI 生成内容,从而防止虚假信息传播。有关我们在安全与责任方面的做法详情,请参阅模型卡片。
从今天起,体验 3.1 Flash Live 的自然性和可靠性。我们期待看到您如何与它互动并基于它进行开发。
来源与参考
收录于 2026-03-27