Gemini 3.1 Flash Live AI语音模型让真人与机器对话界限模糊

Ars Technica AI··作者 Ryan Whitwam

关键信息

该模型在ComplexFuncBench Audio和Big Bench Audio等基准测试中表现优异,显示出更强的任务执行和推理能力。但其具体延迟未明确说明,谷歌称其满足实时对话需求。

资讯摘要

谷歌发布了Gemini 3.1 Flash Live,这是一个旨在实现近实时、自然语音对话的新AI语音模型。相比以往存在明显延迟或机械音调的模型,该模型优化了速度和语调,使其更接近人类交流体验。它目前已用于部分谷歌服务,并将通过Google AI Studio中的GeminiLiveAPI向开发者开放。

该模型在多步骤推理任务和处理人类说话中的停顿、打断方面表现出色,适合复杂对话场景。虽然未公布具体延迟数值,但谷歌暗示其处于人类感知的最佳范围(约300毫秒)。这项进展标志着生成式AI语音的重大飞跃,但也引发了用户如何判断自己是否在与人或机器对话的担忧。

Gemini 3.1 Flash Live AI语音模型让真人与机器对话界限模糊

资讯正文

人工智能生成的内容往往具有某种特定的风格,这使其容易被识别为机器生成,但随着技术的进步,这种独特性越来越难以察觉。我们可能正在见证生成式AI语音领域的类似演变。谷歌宣布了一款名为Gemini 3.1 Flash Live的新AI语音模型——正如其名称所示,该模型专为实时对话设计。它从今天起将在部分谷歌产品中推出,开发者也可以使用这一模型开发自己的“会话机器人”。

谷歌表示,这款AI语音模型速度更快,语音节奏更自然,旨在解决长期以来困扰AI语音生成的问题。与聊天机器人一样,生成式音频系统在输入和输出之间始终存在延迟。较长的延迟和不自然的语调会让对话显得迟缓且难以跟上。研究人员普遍认为,300毫秒的延迟是实现最佳语音感知的极限,但谷歌并未明确说明Gemini 3.1 Flash Live的具体延迟数值,仅称其具备所需的响应速度。

至于基准测试数据?谷歌提供了大量指标,声称这些数据表明Gemini 3.1 Flash Live将成为更可靠的音到音频AI对话方式。例如,在ComplexFuncBench Audio测试中,新模型在处理复杂、多步骤任务方面表现显著提升。此外,Gemini 3.1 Flash Live还在Big Bench Audio测试中名列前茅,该测试通过1000个音频问题评估模型的推理能力。

来源与参考

  1. 原始链接
  2. The debut of Gemini 3.1 Flash Live could make it harder to know if you're talking to a robot

收录于 2026-03-27