AI搜索代理常靠记忆而非真正检索

The Decoder··作者 Jonathan Kemper

关键信息

研究还指出,搜索甚至可能拖累表现:当作者从索引中移除支持答案的文档后,所有测试模型在开启工具时的表现都比完全不用工具更差。作者将这种现象称为“内在知识依赖”,并报告说,模型往往沿着自己的推理路径前进,而且即使搜索结果中出现相关证据,它们整合这些证据的频率也不到三分之一。

资讯摘要

一项新研究称,如今领先的AI搜索代理并没有在现有基准上真正完成多少网络研究,而是更多依靠模型内部已经掌握的知识。报告重点讨论了BrowseComp,这是一个旨在测试代理能否通过浏览多个来源、拼接证据来解决复杂问题的基准。GPT-5.4、Gemini 3.1 Pro、Claude Sonnet 4.6、DeepSeek-V4-Pro 和 Kimi-K2.6 等模型在这个基准上不断刷新高分,但研究人员认为,这些成绩被内部知识夸大了。他们把这种现象称为“内在知识依赖”(IKD),意思是模型可以直接用训练中学到的内容回答很多问题。研究人员在第一轮测试中移除了所有搜索和浏览工具,结果一些模型在没有互联网访问的情况下仍然表现得相当好;MiniMax M2.5 仅靠记忆就解决了 44.5% 的 BrowseComp 任务,而 Kimi K2.6 在中文版本 BrowseComp-ZH 上达到了 62%。

在第二轮测试中,工具仍然保留,但搜索索引里去掉了所有支持答案的文档,结果所有模型在开启工具后都比完全不用工具时表现更差。MiniMax M2.5 从 44.5% 暴跌到 8.0%,Kimi-K2.6 从 25.5% 降到 2.3%,说明当搜索不到确认性证据时,搜索过程反而会把模型从正确答案上带偏。作者还分析了搜索轨迹,发现超过一半的查询来自模型自身的推理,而不是先前搜索到的结果;即便搜索结果里出现了相关证据,模型把这些证据纳入推理的比例也不到三分之一。为了更真实地衡量研究行为,作者构建了 LiveBrowseComp,其中包含 335 道人工编写的问题,题目都依赖于创建前 90 天内发生的事实,并且使用的是持续更新的来源,例如电影数据库、游戏目录、安全漏洞登记库和地震目录。由于这些事实足够新,模型无法依赖训练记忆来作答,因此在闭卷模式下所有模型的准确率都低于 2%,而开启工具后的成绩也比 BrowseComp 低了 25 到 40 个百分点,最终导致排行榜排名重新洗牌,说明静态榜单很可能主要衡量的是模型已经知道多少,而不是它到底有多会搜索。

AI搜索代理常靠记忆而非真正检索

资讯正文

AI 搜索代理往往只是确认它们已经知道的内容,而不是真正去研究网络

一项新研究表明,领先的 AI 搜索代理其实并没有在既有基准上真正进行研究;它们大多只是利用网络来确认自己已经掌握的答案。一旦模型必须超出其既有知识,搜索表现就会崩塌。

GPT-5.4、Gemini 3.1 Pro、Claude Sonnet 4.6、DeepSeek-V4-Pro 和 Kimi-K2.6 这类前沿模型在 BrowseComp 上不断刷新更高分数。该基准会向代理提出复杂问题,只有通过多步浏览并整合来自不同网页来源的信息才能回答。

哈尔滨工业大学和小红书的研究人员如今在一项研究中表明,这些结果所反映的,与其说是代理的研究能力,不如说是人们此前的假设。作者将这一现象称为“内在知识依赖”(intrinsic knowledge dependence,IKD),即模型对训练过程中吸收的内部知识的依赖。

研究人员共测试了 11 个模型,首先移除了所有搜索和浏览工具。即便没有互联网访问,这些模型的得分仍高得出人意料。MiniMax M2.5 仅凭记忆就解决了 44.5% 的 BrowseComp 任务。Kimi K2.6 在中文版本 BrowseComp-ZH 上达到了 62%。换句话说,基准中的很大一部分表现,甚至在任何搜索发生之前就已经产生了。

搜索实际上可能会伤害答案

第二项测试更能说明问题。研究人员保留了搜索界面,但从搜索索引中删除了所有可支持答案的文档。随后,所有受测模型的表现都比完全不使用任何工具时更差。MiniMax M2.5 的成绩从 44.5% 下降到 8.0%。Kimi-K2.6 从 25.5% 降到 2.3%。一旦没有出现能验证答案的命中结果,搜索就会主动把代理从正确的直觉式答案上拉开。

对搜索路径的分析解释了原因。超过一半的查询来自模型自身的推理,而不是先前找到的命中结果。即使在搜索结果中确实出现了相关证据,代理将其纳入推理的比例也不到三分之一。这个循环是由模型主导的,而不是由证据主导的。

一项超越知识前沿的基准

为了衡量真正的搜索行为,作者构建了 LiveBrowseComp。该基准包含 335 个人工撰写的问题,每个问题都依赖于创建前 90 天内至少一个事实,而且如果没有这些最新信息就无法作答。

其底层事件来自持续更新的数据源,例如电影数据库、游戏目录、安全漏洞登记册和地震目录。研究者有意筛除了全球范围内显著的事件,留下那些冷门但可公开验证的事实,而这些事实在训练期间几乎不可能渗入模型参数中。

人类测试者在 LiveBrowseComp 上所需时间与 BrowseComp 大致相同,解决的任务数量也相近。因此,模型表现下降的原因在于失去了记忆捷径,而不是问题本身更难。

排行榜名次分崩离析

在 LiveBrowseComp 上,所有模型在闭卷测试中的准确率都低于 2%。在开启工具后,这些模型的得分比它们在 BrowseComp 上的结果低了大约 25 到 40 个百分点。

这改变了排名。GLM 5.1 在 BrowseComp 上明显领先所有开源模型,但在 LiveBrowseComp 上跌至中游。DeepSeek v3.2 在 BrowseComp 上垫底,随后在 LiveBrowseComp 上跃升到第一,超过了此前表现优于它的几种模型。这表明,模型在静态排行榜上的名次,更多反映的是它已经知道多少,而不是它搜索得有多好。

当智能体不能依赖记忆时,就需要更多步骤

在 BrowseComp 上,智能体用非常少的步骤就解决了许多问题,这说明它们是在快速进行记忆确认。而在 LiveBrowseComp 上,这种模式消失了。步骤数明显上升,这意味着这些智能体是在进行真正的研究,而不是调取已存储的知识。

作者认为,动态、与时间相关的基准测试应该成为评估 AI 智能体的标准。他们还希望训练信号能奖励基于证据的研究,而不是常见的猜测与验证式方法。

其他研究也指出了类似问题。北京大学的一个基准测试发现,顶尖模型在分析文档时往往能给出正确答案,但却引用了错误的来源,研究人员将其称为“归因幻觉”。一个名为 CiteAudit 的工具最近发现,伪造参考文献已经进入多个人工智能顶级会议的已接受论文中。原因是:商用模型并不能可靠地识别编造的引用。

来源与参考

  1. 原始链接
  2. AI search agents often confirm what they already know instead of actually researching the web