谷歌AI摘要正确率91%,但可验证性下降

The Decoder··作者 Matthias Bastian

关键信息

该研究使用SimpleQA基准测试分析了4326次搜索(10月用Gemini 2,2月升级为Gemini 3)。Facebook和Reddit是最常引用的来源之一,引发对可靠性的担忧。

资讯摘要

Oumi利用SimpleQA基准测试对谷歌AI摘要进行了大规模分析,发现使用Gemini 3时准确率提升至91%,高于Gemini 2的85%。然而,通过链接来源验证答案的能力显著下降——Gemini 2时期有63%的答案无法验证,Gemini 3时期上升到56%。谷歌批评该研究方法存在缺陷,称其基准测试不具代表性。

报告还指出多个案例:谷歌虽然找到了正确的来源,但仍然给出错误答案,例如错误识别河流或博物馆开放年份。Facebook和Reddit等平台频繁被引用,引发对可信度和潜在偏见的质疑。

谷歌AI摘要正确率91%,但可验证性下降

资讯正文

谷歌的AI摘要正确率高达九成,研究发现

关键要点

- 人工智能初创公司Oumi受《纽约时报》委托,分析了4326次谷歌搜索,发现使用Gemini 2时AI摘要正确率为85%,而使用Gemini 3时提升至91%。

- 在谷歌庞大的规模下,即使9%的错误率也意味着每小时数百万条错误答案。谷歌表示该研究存在“严重缺陷”。

- 尽管准确率提高,可验证性却变得更差:使用Gemini 3时,56%的正确答案无法通过链接来源核实,高于Gemini 2时期的37%。

谷歌在每个AI生成的搜索结果下方都标注免责声明:“AI回答可能包含错误。”但这些错误究竟多频繁发生,此前一直缺乏系统研究。

受《纽约时报》委托,AI初创公司Oumi利用行业标准的SimpleQA基准测试对4326次谷歌搜索进行了评估。测试分为两轮进行:一次在10月使用Gemini 2模型,另一次在2月升级到Gemini 3之后。

结果显示,使用Gemini 2时,AI摘要的正确率为85%;使用Gemini 3后提升至91%。这听起来令人印象深刻,但在谷歌的规模下,这意味着每小时仍有数百万条错误答案。

该研究并未探讨用户是否能从传统搜索结果或其他渠道获得更优的答案。网站上的内容也不一定都是正确的。真正的问题在于,与没有谷歌AI摘要相比,用户最终是否获得了更多准确的信息。

准确率上升,但可验证性下降

另一个重要发现是:虽然Gemini 3提高了准确性,但可验证性反而恶化了。Oumi检查了谷歌提供的链接来源是否确实支持其给出的答案。使用Gemini 2时,37%的正确答案属于“无依据”类型,即链接网站未能充分佐证信息;而使用Gemini 3时,这一比例飙升至56%。很多时候,仅凭谷歌提供的来源根本无法验证答案。

这些来源的质量本身也值得怀疑。在谷歌引用的5380个来源中,Facebook和Reddit分别位列第二和第四常见来源。Facebook出现在5%的正确答案和7%的错误答案中。谷歌可能有动机偏向那些不太可能因内容使用而起诉的来源。

《纽约时报》列举了几例说明,即便系统找到了正确来源,仍可能出现问题。例如,在一个关于古典音乐名人堂的问题中,谷歌识别出了正确列出约夏·梅纳(Yo-Yo Ma)成员身份的网站,但仍声称他没有被收录进名人堂。

当被问及北卡罗来纳州戈尔德斯伯勒市西侧的河流时,谷歌找到了正确的旅游网站,却误读了信息,将实际的Little River错写为Neuse River。

还有一个关于鲍勃·马利博物馆的问题,谷歌AI摘要给出了错误的开放年份——1987年而非1986年,这个错误来自一条Facebook帖子、一篇旅行博客和一份维基百科页面,它们之间存在相互矛盾的信息。

谷歌的AI概览正确率高达九成,研究发现

谷歌反驳了该研究的方法

为了大规模验证答案,Oumi使用了自己的AI验证模型HallOumi。这是检查数千条回答的唯一可行方式,但也存在明显缺陷:进行核查的AI本身也可能出错。此外,AI概览对相同的搜索请求可能生成不同的答案,即使查询时间仅相隔几秒。

谷歌发言人内德·阿德里安称这项研究存在缺陷,表示其“存在严重漏洞”。他指出,SimpleQA基准测试本身包含错误信息,并未反映人们在谷歌上实际搜索的内容。

尽管名为SimpleQA,该测试由OpenAI开发,但其设计围绕特别棘手的问题——这些问题是至少一个AI模型在预筛选阶段失败的问题。这意味着失败率自然偏高。此外,该基准测试专门用于无互联网访问的场景。

在《人工智能分析指数》中,谷歌最新模型Gemini 3.1 Pro相比此前的Gemini 3,幻觉率下降了38个百分点,后者当时可能以能力较弱的Flash版本运行于谷歌搜索中。谷歌表示,结合网络搜索的结果比仅依赖模型知识的结果更准确。

真正的问题在于AI答案对开放网络产生了什么影响

围绕谷歌AI概览更大的争议在于它们对互联网造成了怎样的影响。通过直接提供答案而非将用户导向外部网站,谷歌正在切断出版商的流量,削弱其经济基础。

开放网络正逐渐失去作为自由链接信息网络的角色,日益被谷歌控制下的集中式AI界面所取代。90%的准确率对大多数用户和大多数搜索而言可能已足够高,以至于他们完全跳过点击进入原始网站。

多项研究表明AI概览损害了网页流量,但谷歌一直予以否认,至今仍未公布自己的数据。甚至OpenAI在最初推出ChatGPT的网页功能时态度更为坦诚,曾表示:“我们意识到这是一种与网络互动的新方式,欢迎关于如何进一步引导流量回源网站、促进生态系统整体健康的反馈。”不过随着其搜索功能的逐步推进,这种担忧悄然淡化。

来源与参考

  1. 原始链接
  2. Google's AI Overviews are correct nine out of ten times, study finds

收录于 2026-04-08