Gemini 3.1 Flash Live AI语音模型让真人与机器对话界限模糊
Ars Technica AI··作者 Ryan Whitwam
关键信息
该模型在ComplexFuncBench Audio和Big Bench Audio等基准测试中表现优异,显示出更强的任务执行和推理能力。但其具体延迟未明确说明,谷歌称其满足实时对话需求。
资讯摘要
谷歌发布了Gemini 3.1 Flash Live,这是一个旨在实现近实时、自然语音对话的新AI语音模型。相比以往存在明显延迟或机械音调的模型,该模型优化了速度和语调,使其更接近人类交流体验。它目前已用于部分谷歌服务,并将通过Google AI Studio中的GeminiLiveAPI向开发者开放。
该模型在多步骤推理任务和处理人类说话中的停顿、打断方面表现出色,适合复杂对话场景。虽然未公布具体延迟数值,但谷歌暗示其处于人类感知的最佳范围(约300毫秒)。这项进展标志着生成式AI语音的重大飞跃,但也引发了用户如何判断自己是否在与人或机器对话的担忧。

资讯正文
人工智能生成的内容往往具有某种特定的风格,这使其容易被识别为机器生成,但随着技术的进步,这种独特性越来越难以察觉。我们可能正在见证生成式AI语音领域的类似演变。谷歌宣布了一款名为Gemini 3.1 Flash Live的新AI语音模型——正如其名称所示,该模型专为实时对话设计。它从今天起将在部分谷歌产品中推出,开发者也可以使用这一模型开发自己的“会话机器人”。
谷歌表示,这款AI语音模型速度更快,语音节奏更自然,旨在解决长期以来困扰AI语音生成的问题。与聊天机器人一样,生成式音频系统在输入和输出之间始终存在延迟。较长的延迟和不自然的语调会让对话显得迟缓且难以跟上。研究人员普遍认为,300毫秒的延迟是实现最佳语音感知的极限,但谷歌并未明确说明Gemini 3.1 Flash Live的具体延迟数值,仅称其具备所需的响应速度。
至于基准测试数据?谷歌提供了大量指标,声称这些数据表明Gemini 3.1 Flash Live将成为更可靠的音到音频AI对话方式。例如,在ComplexFuncBench Audio测试中,新模型在处理复杂、多步骤任务方面表现显著提升。此外,Gemini 3.1 Flash Live还在Big Bench Audio测试中名列前茅,该测试通过1000个音频问题评估模型的推理能力。
来源与参考
收录于 2026-03-27