谷歌Gemini 3.1 Flash Live AI让人类与AI对话更难区分
Ars Technica AI··作者 Ryan Whitwam
收录于 2026-03-28

正文
谷歌最新推出的AI模型Gemini 3.1 Flash Live带来了更快、更自然的语音输出,旨在减少传统AI对话中常见的延迟感。相比旧系统常有的明显延迟或生硬语调,该模型实现了更流畅的交互体验。它目前已应用于部分谷歌产品,并即将向开发者开放,用于定制化语音应用开发。
基准测试显示,它在复杂多步骤音频任务(如Big Bench Audio测试中的千题问答)中表现出色。然而,其高度逼真特性也引发了担忧:用户是否还能轻松识别自己正在与AI还是真人交谈?这促使人们呼吁加强透明度和制定伦理规范。
关键信息
虽然谷歌未明确具体延迟数值,但该模型在ComplexFuncBench Audio和Big Bench Audio等基准测试中表现优于以往版本,表明其在基于音频的任务中具备更强的推理和执行能力。
为什么重要
这项进步可能使用户在实时交流中更难分辨人类与AI的声音,引发关于透明度和潜在滥用(如客服、教育或社交媒体)的伦理担忧。
配图

Tag
来源与参考