AI 搜索代理可能主要是在确认记忆

The Decoder·5月31日 15:48 UTC·作者 Jonathan Kemper

关键信息

在闭卷测试中，多个模型仍然表现出惊人的成绩：MiniMax M2.5 在没有任何搜索工具的情况下就解决了 44.5% 的 BrowseComp 任务，而 Kimi K2.6 在 BrowseComp-ZH 上达到了 62%。当开启搜索但移除了支持答案的文档后，性能急剧下滑，MiniMax M2.5 降至 8.0%，Kimi-K2.6 降至 2.3%，这说明当搜索无法验证模型先验猜测时，反而会干扰代理。

资讯摘要

哈尔滨工业大学和小红书的研究人员发表的一项研究认为，领先的 AI 搜索代理往往依赖内部知识，而不是真正进行网页研究。研究团队还提出了 LiveBrowseComp，这是一个由近期、时效性很强的问题组成的新基准，理论上模型不应仅靠训练记忆就能答出。这些发现表明，现有的 BrowseComp 类成绩可能高估了 AI 代理真正的网页研究能力。

这对依赖这些系统进行搜索、事实核查或工具调用的用户都很重要，因为排行榜上的高分可能更多反映了记忆能力，而不是真正的信息检索能力。在闭卷测试中，多个模型仍然表现出惊人的成绩：MiniMax M2.5 在没有任何搜索工具的情况下就解决了 44.5% 的 BrowseComp 任务，而 Kimi K2.6 在 BrowseComp-ZH 上达到了 62%。当开启搜索但移除了支持答案的文档后，性能急剧下滑，MiniMax M2.5 降至 8.0%，Kimi-K2.6 降至 2.3%，这说明当搜索无法验证模型先验猜测时，反而会干扰代理。

资讯正文

AI 搜索代理往往只是确认它们已经知道的内容，而不是真正去研究网络

一项新研究表明，领先的 AI 搜索代理其实并没有在既有基准上真正进行研究；它们大多只是利用网络来确认自己已经掌握的答案。一旦模型必须超出其既有知识，搜索表现就会崩塌。

GPT-5.4、Gemini 3.1 Pro、Claude Sonnet 4.6、DeepSeek-V4-Pro 和 Kimi-K2.6 这类前沿模型在 BrowseComp 上不断刷新更高分数。该基准会向代理提出复杂问题，只有通过多步浏览并整合来自不同网页来源的信息才能回答。

哈尔滨工业大学和小红书的研究人员如今在一项研究中表明，这些结果所反映的，与其说是代理的研究能力，不如说是人们此前的假设。作者将这一现象称为“内在知识依赖”（intrinsic knowledge dependence，IKD），即模型对训练过程中吸收的内部知识的依赖。

研究人员共测试了 11 个模型，首先移除了所有搜索和浏览工具。即便没有互联网访问，这些模型的得分仍高得出人意料。MiniMax M2.5 仅凭记忆就解决了 44.5% 的 BrowseComp 任务。Kimi K2.6 在中文版本 BrowseComp-ZH 上达到了 62%。换句话说，基准中的很大一部分表现，甚至在任何搜索发生之前就已经产生了。

搜索实际上可能会伤害答案

第二项测试更能说明问题。研究人员保留了搜索界面，但从搜索索引中删除了所有可支持答案的文档。随后，所有受测模型的表现都比完全不使用任何工具时更差。MiniMax M2.5 的成绩从 44.5% 下降到 8.0%。Kimi-K2.6 从 25.5% 降到 2.3%。一旦没有出现能验证答案的命中结果，搜索就会主动把代理从正确的直觉式答案上拉开。

对搜索路径的分析解释了原因。超过一半的查询来自模型自身的推理，而不是先前找到的命中结果。即使在搜索结果中确实出现了相关证据，代理将其纳入推理的比例也不到三分之一。这个循环是由模型主导的，而不是由证据主导的。

一项超越知识前沿的基准

为了衡量真正的搜索行为，作者构建了 LiveBrowseComp。该基准包含 335 个人工撰写的问题，每个问题都依赖于创建前 90 天内至少一个事实，而且如果没有这些最新信息就无法作答。

其底层事件来自持续更新的数据源，例如电影数据库、游戏目录、安全漏洞登记册和地震目录。研究者有意筛除了全球范围内显著的事件，留下那些冷门但可公开验证的事实，而这些事实在训练期间几乎不可能渗入模型参数中。

人类测试者在 LiveBrowseComp 上所需时间与 BrowseComp 大致相同，解决的任务数量也相近。因此，模型表现下降的原因在于失去了记忆捷径，而不是问题本身更难。

排行榜名次分崩离析

在 LiveBrowseComp 上，所有模型在闭卷测试中的准确率都低于 2%。在开启工具后，这些模型的得分比它们在 BrowseComp 上的结果低了大约 25 到 40 个百分点。

这改变了排名。GLM 5.1 在 BrowseComp 上明显领先所有开源模型，但在 LiveBrowseComp 上跌至中游。DeepSeek v3.2 在 BrowseComp 上垫底，随后在 LiveBrowseComp 上跃升到第一，超过了此前表现优于它的几种模型。这表明，模型在静态排行榜上的名次，更多反映的是它已经知道多少，而不是它搜索得有多好。

当智能体不能依赖记忆时，就需要更多步骤

在 BrowseComp 上，智能体用非常少的步骤就解决了许多问题，这说明它们是在快速进行记忆确认。而在 LiveBrowseComp 上，这种模式消失了。步骤数明显上升，这意味着这些智能体是在进行真正的研究，而不是调取已存储的知识。

作者认为，动态、与时间相关的基准测试应该成为评估 AI 智能体的标准。他们还希望训练信号能奖励基于证据的研究，而不是常见的猜测与验证式方法。

其他研究也指出了类似问题。北京大学的一个基准测试发现，顶尖模型在分析文档时往往能给出正确答案，但却引用了错误的来源，研究人员将其称为“归因幻觉”。一个名为 CiteAudit 的工具最近发现，伪造参考文献已经进入多个人工智能顶级会议的已接受论文中。原因是：商用模型并不能可靠地识别编造的引用。

来源与参考

收录于 2026-06-01