AI搜索代理失败于歧义处理,而非搜索本身

The Decoder··作者 Jonathan Kemper

关键信息

DiscoBench 覆盖了 11 个知识领域中的 211 个任务和 463 个歧义点,且数据集以中文为主,以反映真实的中文网页搜索行为。作者将歧义分为四类:实体歧义、时间/版本歧义、标准歧义和事实错误歧义;他们还报告说,当模型提出有针对性的后续问题时,成功率可以提升到 93% 以上。

资讯摘要

文章认为,AI 搜索代理通常不是因为不会搜索而失败,而是因为在查询存在歧义时没有问出正确的问题。这个结论来自 DiscoBench,这是腾讯混元和清华大学共同提出的一个基准,用来测试模型能否在深度搜索链中识别歧义,并通过澄清而不是猜测来推进任务。与 GAIA 和 BrowseComp 等早期基准不同,DiscoBench 更贴近现实,因为真实用户的提问常常是不完整、含糊甚至错误的。该基准包含 211 个任务和 463 个歧义点,覆盖 11 个领域,包括电子游戏、体育、音乐、电影、科学和政治。每个任务被拆分为多个检查点,代理可以选择继续搜索、向用户请求澄清,或者直接给出答案。研究者把歧义分为四类:一个描述对应多个实体、不同时间或版本之间存在不确定性、存在多个有效的排名或评估标准,以及直接的事实错误。

数据集大部分使用中文,搜索部分通过 Tavily 完成,用户模拟器则使用 Gemini 3 Flash。结果显示,即便是 Gemini 3.1 Pro 和 Claude Opus 4.7 这样的强模型,整体表现也常常低于 50%;例如 Claude Opus 4.7 在单个检查点上的正确率为 57%,但端到端只有 39.8%。文章还指出,如果歧义没有被及时消除,反复搜索往往比猜测更糟,因为早期一次错误假设就可能让整条推理链偏离目标。相反,当模型提出有针对性的后续问题时,成功率可以跃升到 93% 以上。作者因此认为,未来的搜索代理不仅要学会识别不确定性,还要学会用真正有效的澄清问题把不确定性转化为与用户的对话。

AI搜索代理失败于歧义处理,而非搜索本身

资讯正文

AI 搜索代理并不是败在“搜不到”,而是败在查询变得含糊时没有问出正确的问题

关键要点

- DiscoBench 是腾讯混元和清华大学推出的新基准,用来测试 AI 搜索代理在面对含糊查询时,是否会主动向用户澄清,而不是直接猜测。

- Gemini 3.1 Pro 和 Claude Opus 4.7 等领先模型在该基准上的得分都低于 50%,因为它们在遇到歧义时往往会自行假设,而不是发问。

- 当模型确实会提出有针对性的追问时,成功率会跃升到 93% 以上。未来的 AI 系统需要学会识别不确定性,并把它转化为与用户的有效对话。

AI 搜索代理在多步骤研究任务中很少是因为搜索本身而失败。它们真正的问题,是在查询含糊时没有向用户请求澄清。这是腾讯混元和清华大学团队推出的一项新基准得出的结论。反复搜索往往比直接猜测的效果更差。

借助 DiscoBench,研究人员搭建了一个测试框架,用来检查语言模型在深度搜索链中是否能自行发现歧义、提出有针对性的后续问题,并修正自己的研究路径。GAIA 或 BrowseComp 之类的先前基准,默认用户查询是完整且无歧义的。

但现实中的查询常常含糊、不完整,甚至完全错误。在长推理链中,每一个未解决的歧义都会不断累积,把代理带偏到错误路径上。如果模型在早期节点选错了实体,它之后会一直用正确的语法继续搜索,却彻底错过真正的目标。

四类歧义

DiscoBench 包含 211 个任务,总计 463 个歧义点,覆盖 11 个知识领域,包括电子游戏、体育、音乐、电影、科学和政治。每个任务被拆分为多个检查点。在每个检查点,代理可以在三种动作中选择一种:继续搜索、向用户请求澄清,或者给出答案。

研究人员定义了四种歧义类型。一个描述可能对应多个实体,可能适用于不同的时间段或版本,可能允许多种有效的排名或评估标准,或者可能包含明显的事实错误。该数据集大多用中文写成,以反映中文互联网的典型搜索模式。

当代理提出有用的后续问题时,基于 LLM 的用户模拟器会给出一个预设线索,帮助缩小搜索范围。所有搜索查询都通过代理搜索引擎 Tavily,模拟器则由 Gemini 3 Flash 担任。

即便是大模型,得分也依然低于 50%

单步得分和整体结果之间存在差距。比如 Claude Opus 4.7 在各个检查点上的正确率为 57%,但端到端只达到 39.8%。单独看时,某一步研究过程本身没有问题,但只要有一个歧义没有解决,整条链路就会崩掉。

一个警告提示并不够

作者还测试了这样一种情况:系统提示明确要求代理留意歧义,并在拿不准时提出后续问题。这种“Guided”模式旨在展示一种上限:当模型不必自己判断问题是否信息不足时,能够达到什么水平。

多搜并不如盲猜

识别歧义和提出好问题是两种不同的能力

一个有用的研究代理需要同时具备这两种能力:既能识别何时该追问,又能把问题问到足以真正推动搜索进展的程度。

按歧义类型拆开来看,事实性错误最容易检测,因为它们会在研究过程中造成直接矛盾。实体歧义和标准歧义则更难,因为多个合理候选项或不清晰的评判标准可以同时存在,而不会出现明显矛盾。

AI 代理需要更好的追问策略

其他近期研究也证实,当前的搜索代理在研究方式上存在基本弱点。一项研究发现,在 BrowseComp 这类基准上,领先模型往往只是确认自己已经知道的内容。在专门构建、且包含超出知识截止时间事实的 LiveBrowseComp 上,所有系统都下降了 25 到 40 分。Halluhard 基准还显示,带网页搜索的 Claude Opus 4.5 在大约 30% 的案例中会产生幻觉,主要发生在核实引用来源内容时。

Anthropic 在其最新模型更新 Claude Opus 4.8 中试图解决这个问题。该模型据称会更频繁地标记不确定性,而且在自己的代码里留下未注释 bug 的频率,比前代低了大约四倍。Perplexity 则采用了另一种方法,通过 Search as Code 让模型把搜索工作流写成 Python 程序,而不是调用预先构建好的 API。

来源与参考

  1. 原始链接
  2. AI search agents don't fail at searching, they fail at asking the right questions when queries get ambiguous