AI搜索代理失败于歧义处理,而非搜索本身
The Decoder··作者 Jonathan Kemper
关键信息
DiscoBench 覆盖了 11 个知识领域中的 211 个任务和 463 个歧义点,且数据集以中文为主,以反映真实的中文网页搜索行为。作者将歧义分为四类:实体歧义、时间/版本歧义、标准歧义和事实错误歧义;他们还报告说,当模型提出有针对性的后续问题时,成功率可以提升到 93% 以上。
资讯摘要
文章认为,AI 搜索代理通常不是因为不会搜索而失败,而是因为在查询存在歧义时没有问出正确的问题。这个结论来自 DiscoBench,这是腾讯混元和清华大学共同提出的一个基准,用来测试模型能否在深度搜索链中识别歧义,并通过澄清而不是猜测来推进任务。与 GAIA 和 BrowseComp 等早期基准不同,DiscoBench 更贴近现实,因为真实用户的提问常常是不完整、含糊甚至错误的。该基准包含 211 个任务和 463 个歧义点,覆盖 11 个领域,包括电子游戏、体育、音乐、电影、科学和政治。每个任务被拆分为多个检查点,代理可以选择继续搜索、向用户请求澄清,或者直接给出答案。研究者把歧义分为四类:一个描述对应多个实体、不同时间或版本之间存在不确定性、存在多个有效的排名或评估标准,以及直接的事实错误。
数据集大部分使用中文,搜索部分通过 Tavily 完成,用户模拟器则使用 Gemini 3 Flash。结果显示,即便是 Gemini 3.1 Pro 和 Claude Opus 4.7 这样的强模型,整体表现也常常低于 50%;例如 Claude Opus 4.7 在单个检查点上的正确率为 57%,但端到端只有 39.8%。文章还指出,如果歧义没有被及时消除,反复搜索往往比猜测更糟,因为早期一次错误假设就可能让整条推理链偏离目标。相反,当模型提出有针对性的后续问题时,成功率可以跃升到 93% 以上。作者因此认为,未来的搜索代理不仅要学会识别不确定性,还要学会用真正有效的澄清问题把不确定性转化为与用户的对话。

资讯正文
AI 搜索代理并不是败在“搜不到”,而是败在查询变得含糊时没有问出正确的问题
关键要点
- DiscoBench 是腾讯混元和清华大学推出的新基准,用来测试 AI 搜索代理在面对含糊查询时,是否会主动向用户澄清,而不是直接猜测。
- Gemini 3.1 Pro 和 Claude Opus 4.7 等领先模型在该基准上的得分都低于 50%,因为它们在遇到歧义时往往会自行假设,而不是发问。
- 当模型确实会提出有针对性的追问时,成功率会跃升到 93% 以上。未来的 AI 系统需要学会识别不确定性,并把它转化为与用户的有效对话。
AI 搜索代理在多步骤研究任务中很少是因为搜索本身而失败。它们真正的问题,是在查询含糊时没有向用户请求澄清。这是腾讯混元和清华大学团队推出的一项新基准得出的结论。反复搜索往往比直接猜测的效果更差。
借助 DiscoBench,研究人员搭建了一个测试框架,用来检查语言模型在深度搜索链中是否能自行发现歧义、提出有针对性的后续问题,并修正自己的研究路径。GAIA 或 BrowseComp 之类的先前基准,默认用户查询是完整且无歧义的。
但现实中的查询常常含糊、不完整,甚至完全错误。在长推理链中,每一个未解决的歧义都会不断累积,把代理带偏到错误路径上。如果模型在早期节点选错了实体,它之后会一直用正确的语法继续搜索,却彻底错过真正的目标。
四类歧义
DiscoBench 包含 211 个任务,总计 463 个歧义点,覆盖 11 个知识领域,包括电子游戏、体育、音乐、电影、科学和政治。每个任务被拆分为多个检查点。在每个检查点,代理可以在三种动作中选择一种:继续搜索、向用户请求澄清,或者给出答案。
研究人员定义了四种歧义类型。一个描述可能对应多个实体,可能适用于不同的时间段或版本,可能允许多种有效的排名或评估标准,或者可能包含明显的事实错误。该数据集大多用中文写成,以反映中文互联网的典型搜索模式。
当代理提出有用的后续问题时,基于 LLM 的用户模拟器会给出一个预设线索,帮助缩小搜索范围。所有搜索查询都通过代理搜索引擎 Tavily,模拟器则由 Gemini 3 Flash 担任。
即便是大模型,得分也依然低于 50%
单步得分和整体结果之间存在差距。比如 Claude Opus 4.7 在各个检查点上的正确率为 57%,但端到端只达到 39.8%。单独看时,某一步研究过程本身没有问题,但只要有一个歧义没有解决,整条链路就会崩掉。
一个警告提示并不够
作者还测试了这样一种情况:系统提示明确要求代理留意歧义,并在拿不准时提出后续问题。这种“Guided”模式旨在展示一种上限:当模型不必自己判断问题是否信息不足时,能够达到什么水平。
多搜并不如盲猜
识别歧义和提出好问题是两种不同的能力
一个有用的研究代理需要同时具备这两种能力:既能识别何时该追问,又能把问题问到足以真正推动搜索进展的程度。
按歧义类型拆开来看,事实性错误最容易检测,因为它们会在研究过程中造成直接矛盾。实体歧义和标准歧义则更难,因为多个合理候选项或不清晰的评判标准可以同时存在,而不会出现明显矛盾。
AI 代理需要更好的追问策略
其他近期研究也证实,当前的搜索代理在研究方式上存在基本弱点。一项研究发现,在 BrowseComp 这类基准上,领先模型往往只是确认自己已经知道的内容。在专门构建、且包含超出知识截止时间事实的 LiveBrowseComp 上,所有系统都下降了 25 到 40 分。Halluhard 基准还显示,带网页搜索的 Claude Opus 4.5 在大约 30% 的案例中会产生幻觉,主要发生在核实引用来源内容时。
Anthropic 在其最新模型更新 Claude Opus 4.8 中试图解决这个问题。该模型据称会更频繁地标记不确定性,而且在自己的代码里留下未注释 bug 的频率,比前代低了大约四倍。Perplexity 则采用了另一种方法,通过 Search as Code 让模型把搜索工作流写成 Python 程序,而不是调用预先构建好的 API。
来源与参考