AI搜索代理失败于歧义处理，而非搜索本身

The Decoder·7月5日 15:52 UTC·作者 Jonathan Kemper

关键信息

DiscoBench 覆盖了 11 个知识领域中的 211 个任务和 463 个歧义点，且数据集以中文为主，以反映真实的中文网页搜索行为。作者将歧义分为四类：实体歧义、时间/版本歧义、标准歧义和事实错误歧义；他们还报告说，当模型提出有针对性的后续问题时，成功率可以提升到 93% 以上。

资讯摘要

文章认为，AI 搜索代理通常不是因为不会搜索而失败，而是因为在查询存在歧义时没有问出正确的问题。这个结论来自 DiscoBench，这是腾讯混元和清华大学共同提出的一个基准，用来测试模型能否在深度搜索链中识别歧义，并通过澄清而不是猜测来推进任务。与 GAIA 和 BrowseComp 等早期基准不同，DiscoBench 更贴近现实，因为真实用户的提问常常是不完整、含糊甚至错误的。该基准包含 211 个任务和 463 个歧义点，覆盖 11 个领域，包括电子游戏、体育、音乐、电影、科学和政治。每个任务被拆分为多个检查点，代理可以选择继续搜索、向用户请求澄清，或者直接给出答案。研究者把歧义分为四类：一个描述对应多个实体、不同时间或版本之间存在不确定性、存在多个有效的排名或评估标准，以及直接的事实错误。

数据集大部分使用中文，搜索部分通过 Tavily 完成，用户模拟器则使用 Gemini 3 Flash。结果显示，即便是 Gemini 3.1 Pro 和 Claude Opus 4.7 这样的强模型，整体表现也常常低于 50%；例如 Claude Opus 4.7 在单个检查点上的正确率为 57%，但端到端只有 39.8%。文章还指出，如果歧义没有被及时消除，反复搜索往往比猜测更糟，因为早期一次错误假设就可能让整条推理链偏离目标。相反，当模型提出有针对性的后续问题时，成功率可以跃升到 93% 以上。作者因此认为，未来的搜索代理不仅要学会识别不确定性，还要学会用真正有效的澄清问题把不确定性转化为与用户的对话。

资讯正文

AI 搜索代理并不是败在“搜不到”，而是败在查询变得含糊时没有问出正确的问题

关键要点

- DiscoBench 是腾讯混元和清华大学推出的新基准，用来测试 AI 搜索代理在面对含糊查询时，是否会主动向用户澄清，而不是直接猜测。

- Gemini 3.1 Pro 和 Claude Opus 4.7 等领先模型在该基准上的得分都低于 50%，因为它们在遇到歧义时往往会自行假设，而不是发问。

- 当模型确实会提出有针对性的追问时，成功率会跃升到 93% 以上。未来的 AI 系统需要学会识别不确定性，并把它转化为与用户的有效对话。

AI 搜索代理在多步骤研究任务中很少是因为搜索本身而失败。它们真正的问题，是在查询含糊时没有向用户请求澄清。这是腾讯混元和清华大学团队推出的一项新基准得出的结论。反复搜索往往比直接猜测的效果更差。

借助 DiscoBench，研究人员搭建了一个测试框架，用来检查语言模型在深度搜索链中是否能自行发现歧义、提出有针对性的后续问题，并修正自己的研究路径。GAIA 或 BrowseComp 之类的先前基准，默认用户查询是完整且无歧义的。

但现实中的查询常常含糊、不完整，甚至完全错误。在长推理链中，每一个未解决的歧义都会不断累积，把代理带偏到错误路径上。如果模型在早期节点选错了实体，它之后会一直用正确的语法继续搜索，却彻底错过真正的目标。

四类歧义

DiscoBench 包含 211 个任务，总计 463 个歧义点，覆盖 11 个知识领域，包括电子游戏、体育、音乐、电影、科学和政治。每个任务被拆分为多个检查点。在每个检查点，代理可以在三种动作中选择一种：继续搜索、向用户请求澄清，或者给出答案。

研究人员定义了四种歧义类型。一个描述可能对应多个实体，可能适用于不同的时间段或版本，可能允许多种有效的排名或评估标准，或者可能包含明显的事实错误。该数据集大多用中文写成，以反映中文互联网的典型搜索模式。

当代理提出有用的后续问题时，基于 LLM 的用户模拟器会给出一个预设线索，帮助缩小搜索范围。所有搜索查询都通过代理搜索引擎 Tavily，模拟器则由 Gemini 3 Flash 担任。

即便是大模型，得分也依然低于 50%

单步得分和整体结果之间存在差距。比如 Claude Opus 4.7 在各个检查点上的正确率为 57%，但端到端只达到 39.8%。单独看时，某一步研究过程本身没有问题，但只要有一个歧义没有解决，整条链路就会崩掉。

一个警告提示并不够

作者还测试了这样一种情况：系统提示明确要求代理留意歧义，并在拿不准时提出后续问题。这种“Guided”模式旨在展示一种上限：当模型不必自己判断问题是否信息不足时，能够达到什么水平。

多搜并不如盲猜

识别歧义和提出好问题是两种不同的能力

一个有用的研究代理需要同时具备这两种能力：既能识别何时该追问，又能把问题问到足以真正推动搜索进展的程度。

按歧义类型拆开来看，事实性错误最容易检测，因为它们会在研究过程中造成直接矛盾。实体歧义和标准歧义则更难，因为多个合理候选项或不清晰的评判标准可以同时存在，而不会出现明显矛盾。

AI 代理需要更好的追问策略

其他近期研究也证实，当前的搜索代理在研究方式上存在基本弱点。一项研究发现，在 BrowseComp 这类基准上，领先模型往往只是确认自己已经知道的内容。在专门构建、且包含超出知识截止时间事实的 LiveBrowseComp 上，所有系统都下降了 25 到 40 分。Halluhard 基准还显示，带网页搜索的 Claude Opus 4.5 在大约 30% 的案例中会产生幻觉，主要发生在核实引用来源内容时。

Anthropic 在其最新模型更新 Claude Opus 4.8 中试图解决这个问题。该模型据称会更频繁地标记不确定性，而且在自己的代码里留下未注释 bug 的频率，比前代低了大约四倍。Perplexity 则采用了另一种方法，通过 Search as Code 让模型把搜索工作流写成 Python 程序，而不是调用预先构建好的 API。

来源与参考