谷歌AI摘要每10次回答就有1次错误,每小时产生数百万条虚假信息

Ars Technica AI··作者 Ryan Whitwam

关键信息

该研究使用了OpenAI的SimpleQA基准测试,包含超过4300个可验证问题;准确率从Gemini 2.5时期的85%提升到Gemini 3时期的91%,但仍存在9%的错误回答。谷歌还会根据查询复杂度使用不同的模型(如更快的Flash版本),这可能影响一致性。

资讯摘要

《纽约时报》和Oumi的一项最新分析显示,谷歌的AI摘要(由Gemini模型驱动)在使用SimpleQA基准测试时,每10个问题中有1个回答错误。这意味着每天会产生数千万条不准确的信息。尽管谷歌声称该测试包含错误数据,并更倾向于使用其经过验证的版本(SimpleQA Verified),但这些发现引发了对用户过度依赖AI摘要而不查证原始来源的担忧。

研究表明,虽然相比早期模型有所改进,但仍存在显著的错误率。谷歌承认,为了效率会使用多种模型,有时选择更快但准确性较低的版本(如Gemini Flash),这可能解释了结果的波动性。尽管比独立模型更准确,AI摘要常常未能引用可靠来源,也没有鼓励用户手动核实事实。

谷歌AI摘要每10次回答就有1次错误,每小时产生数百万条虚假信息

资讯正文

查看谷歌上的信息如今意味着要面对AI摘要,这是由Gemini驱动的搜索机器人,出现在搜索结果页面顶部。自2024年推出以来,AI摘要一直饱受用户批评,因其准确性参差不齐,但目前它正在改善,通常能给出正确答案。不过,这个标准其实很低。《纽约时报》最近的一项分析试图评估AI摘要的准确性,发现其正确率约为90%。这意味着每10个回答中就有1个是错误的,对谷歌而言,这相当于每分钟发出数十万条谎言。

《纽约时报》在一家名为Oumi的初创公司协助下完成了这项分析,该公司本身也深度参与人工智能模型开发。该公司使用AI工具通过SimpleQA评测来测试AI摘要的表现——这是一种常用于衡量生成式AI模型(如Gemini)事实准确性的通用测试。该测试由OpenAI于2024年发布,本质上是一份包含超过4000个可验证答案的问题列表,可以输入到AI系统中进行评估。

Oumi去年开始测试时,Gemini 2.5仍是该公司最先进的模型,当时基准测试显示准确率为85%。在Gemini 3更新后重新运行测试时,AI摘要正确回答了91%的问题。如果将这一错误率扩展到所有谷歌搜索,AI摘要每天会产生数千万个错误答案。

报告中列举了多个AI摘要出错的例子。当被问及鲍勃·马利故居成为博物馆的具体日期时,AI摘要引用了三篇网页,其中两篇根本未提及该日期;第三篇来自维基百科,列出了两个相互矛盾的年份,而AI摘要却自信地选错了其中一个。该基准测试还要求模型提供约瑟夫·约阿希姆(Yo Yo Ma)入选古典音乐名人堂的具体日期。虽然AI摘要引用了相关机构网站上列出的马友友入会信息,但它声称根本没有所谓的“古典音乐名人堂”。

谷歌并不喜欢这种测试方式。谷歌发言人内德·阿德里安告诉《纽约时报》,谷歌认为SimpleQA包含错误信息。他们的模型评估通常依赖一种称为SimpleQA Verified的类似测试,后者使用更少但经过更严格审查的问题集。“这项研究存在严重漏洞,”阿德里安表示,“它并不能反映人们在谷歌上实际搜索的内容。”

基准测试的问题

评估新的人工智能模型有时更像是艺术而非科学,这也是问题所在之一。每个公司都有自己偏好的展示方式,而生成式AI的非确定性特性也让验证变得困难。这些机器人可能在一次提问中给出正确答案,但如果你立即重试相同查询,却可能完全答错。甚至连Oumi也用AI工具来进行评估,而这些模型同样可能出现幻觉现象。

另一个问题是,AI摘要并非单一的模型。谷歌告诉《Ars Technica》杂志,它会根据每个查询使用‘合适的模型’。虽然AI摘要如果始终运行Gemini 3.1 Pro可以获得最佳答案,但这速度慢且成本高。为了在搜索页面上快速加载内容,摘要通常会使用更快的Gemini Flash模型(看起来这大多数时候都在使用)。

谷歌对这份报告的回应很有启发性。在人工智能事实准确性方面,90%的正确率其实并不算差。谷歌最近发布的新型号模型基准测试中,事实准确率范围在60%到80%之间——这些测试并未使用像网络搜索这样的工具。将AI与更多数据结合,比如互联网上的海量人类知识,确实能使其比原始模型更准确。但真相往往藏在蓝色链接里,而AI摘要却鼓励人们接受其有时不准确的总结,而不是手动去核对来源。

尽管谷歌表示,《纽约时报》的结果与用户实际看到的情况不符,但你不得不怀疑这家公司究竟如何知道这一点。你可能已经见过AI摘要中的错误——我们所有人都见过,因为这就是生成式AI的工作方式。正如谷歌自己在每份摘要底部提醒的那样:‘AI可能会出错,请核实回答。’

来源与参考

  1. 原始链接
  2. Testing suggests Google's AI Overviews tell millions of lies per hour

收录于 2026-04-08