Gemini 3.1 Flash Live AI语音模型让真人与机器对话界限模糊

Ars Technica AI·3月27日 01:44 UTC·作者 Ryan Whitwam

关键信息

该模型在ComplexFuncBench Audio和Big Bench Audio等基准测试中表现优异，显示出更强的任务执行和推理能力。但其具体延迟未明确说明，谷歌称其满足实时对话需求。

资讯摘要

谷歌发布了Gemini 3.1 Flash Live，这是一个旨在实现近实时、自然语音对话的新AI语音模型。相比以往存在明显延迟或机械音调的模型，该模型优化了速度和语调，使其更接近人类交流体验。它目前已用于部分谷歌服务，并将通过Google AI Studio中的GeminiLiveAPI向开发者开放。

该模型在多步骤推理任务和处理人类说话中的停顿、打断方面表现出色，适合复杂对话场景。虽然未公布具体延迟数值，但谷歌暗示其处于人类感知的最佳范围（约300毫秒）。这项进展标志着生成式AI语音的重大飞跃，但也引发了用户如何判断自己是否在与人或机器对话的担忧。

Gemini 3.1 Flash Live AI语音模型让真人与机器对话界限模糊

资讯正文

人工智能生成的内容往往具有某种特定的风格，这使其容易被识别为机器生成，但随着技术的进步，这种独特性越来越难以察觉。我们可能正在见证生成式AI语音领域的类似演变。谷歌宣布了一款名为Gemini 3.1 Flash Live的新AI语音模型——正如其名称所示，该模型专为实时对话设计。它从今天起将在部分谷歌产品中推出，开发者也可以使用这一模型开发自己的“会话机器人”。

谷歌表示，这款AI语音模型速度更快，语音节奏更自然，旨在解决长期以来困扰AI语音生成的问题。与聊天机器人一样，生成式音频系统在输入和输出之间始终存在延迟。较长的延迟和不自然的语调会让对话显得迟缓且难以跟上。研究人员普遍认为，300毫秒的延迟是实现最佳语音感知的极限，但谷歌并未明确说明Gemini 3.1 Flash Live的具体延迟数值，仅称其具备所需的响应速度。

至于基准测试数据？谷歌提供了大量指标，声称这些数据表明Gemini 3.1 Flash Live将成为更可靠的音到音频AI对话方式。例如，在ComplexFuncBench Audio测试中，新模型在处理复杂、多步骤任务方面表现显著提升。此外，Gemini 3.1 Flash Live还在Big Bench Audio测试中名列前茅，该测试通过1000个音频问题评估模型的推理能力。

来源与参考

收录于 2026-03-27