谷歌AI摘要每10次回答就有1次错误，每小时产生数百万条虚假信息

Ars Technica AI·4月8日 00:53 UTC·作者 Ryan Whitwam

关键信息

该研究使用了OpenAI的SimpleQA基准测试，包含超过4300个可验证问题；准确率从Gemini 2.5时期的85%提升到Gemini 3时期的91%，但仍存在9%的错误回答。谷歌还会根据查询复杂度使用不同的模型（如更快的Flash版本），这可能影响一致性。

资讯摘要

《纽约时报》和Oumi的一项最新分析显示，谷歌的AI摘要（由Gemini模型驱动）在使用SimpleQA基准测试时，每10个问题中有1个回答错误。这意味着每天会产生数千万条不准确的信息。尽管谷歌声称该测试包含错误数据，并更倾向于使用其经过验证的版本（SimpleQA Verified），但这些发现引发了对用户过度依赖AI摘要而不查证原始来源的担忧。

研究表明，虽然相比早期模型有所改进，但仍存在显著的错误率。谷歌承认，为了效率会使用多种模型，有时选择更快但准确性较低的版本（如Gemini Flash），这可能解释了结果的波动性。尽管比独立模型更准确，AI摘要常常未能引用可靠来源，也没有鼓励用户手动核实事实。

资讯正文

查看谷歌上的信息如今意味着要面对AI摘要，这是由Gemini驱动的搜索机器人，出现在搜索结果页面顶部。自2024年推出以来，AI摘要一直饱受用户批评，因其准确性参差不齐，但目前它正在改善，通常能给出正确答案。不过，这个标准其实很低。《纽约时报》最近的一项分析试图评估AI摘要的准确性，发现其正确率约为90%。这意味着每10个回答中就有1个是错误的，对谷歌而言，这相当于每分钟发出数十万条谎言。

《纽约时报》在一家名为Oumi的初创公司协助下完成了这项分析，该公司本身也深度参与人工智能模型开发。该公司使用AI工具通过SimpleQA评测来测试AI摘要的表现——这是一种常用于衡量生成式AI模型（如Gemini）事实准确性的通用测试。该测试由OpenAI于2024年发布，本质上是一份包含超过4000个可验证答案的问题列表，可以输入到AI系统中进行评估。

Oumi去年开始测试时，Gemini 2.5仍是该公司最先进的模型，当时基准测试显示准确率为85%。在Gemini 3更新后重新运行测试时，AI摘要正确回答了91%的问题。如果将这一错误率扩展到所有谷歌搜索，AI摘要每天会产生数千万个错误答案。

报告中列举了多个AI摘要出错的例子。当被问及鲍勃·马利故居成为博物馆的具体日期时，AI摘要引用了三篇网页，其中两篇根本未提及该日期；第三篇来自维基百科，列出了两个相互矛盾的年份，而AI摘要却自信地选错了其中一个。该基准测试还要求模型提供约瑟夫·约阿希姆（Yo Yo Ma）入选古典音乐名人堂的具体日期。虽然AI摘要引用了相关机构网站上列出的马友友入会信息，但它声称根本没有所谓的“古典音乐名人堂”。

谷歌并不喜欢这种测试方式。谷歌发言人内德·阿德里安告诉《纽约时报》，谷歌认为SimpleQA包含错误信息。他们的模型评估通常依赖一种称为SimpleQA Verified的类似测试，后者使用更少但经过更严格审查的问题集。“这项研究存在严重漏洞，”阿德里安表示，“它并不能反映人们在谷歌上实际搜索的内容。”

基准测试的问题

评估新的人工智能模型有时更像是艺术而非科学，这也是问题所在之一。每个公司都有自己偏好的展示方式，而生成式AI的非确定性特性也让验证变得困难。这些机器人可能在一次提问中给出正确答案，但如果你立即重试相同查询，却可能完全答错。甚至连Oumi也用AI工具来进行评估，而这些模型同样可能出现幻觉现象。

另一个问题是，AI摘要并非单一的模型。谷歌告诉《Ars Technica》杂志，它会根据每个查询使用‘合适的模型’。虽然AI摘要如果始终运行Gemini 3.1 Pro可以获得最佳答案，但这速度慢且成本高。为了在搜索页面上快速加载内容，摘要通常会使用更快的Gemini Flash模型（看起来这大多数时候都在使用）。

谷歌对这份报告的回应很有启发性。在人工智能事实准确性方面，90%的正确率其实并不算差。谷歌最近发布的新型号模型基准测试中，事实准确率范围在60%到80%之间——这些测试并未使用像网络搜索这样的工具。将AI与更多数据结合，比如互联网上的海量人类知识，确实能使其比原始模型更准确。但真相往往藏在蓝色链接里，而AI摘要却鼓励人们接受其有时不准确的总结，而不是手动去核对来源。

尽管谷歌表示，《纽约时报》的结果与用户实际看到的情况不符，但你不得不怀疑这家公司究竟如何知道这一点。你可能已经见过AI摘要中的错误——我们所有人都见过，因为这就是生成式AI的工作方式。正如谷歌自己在每份摘要底部提醒的那样：‘AI可能会出错，请核实回答。’

来源与参考

收录于 2026-04-08