CiteVQA 揭示 AI 文档问答错引证据
The Decoder··作者 Jonathan Kemper
关键信息
CiteVQA 包含来自 711 份 PDF 的 1,897 个问题,覆盖七个主题领域,并要求精确到段落、表格或图表级别的引用,而不只是页码。基准测试中,Gemini-3.1-Pro-Preview 得分为 76/100,而 GPT-5.4 在只看原始答案时为 87.1 分,但在要求严格引用准确性后降至 59 分。
资讯摘要
文章介绍了由北京大学和上海人工智能实验室研究人员提出的新基准 CiteVQA,用来衡量 AI 系统在回答文档问题的同时,能否给出正确的证据引用。作者认为,现有的 DocVQA 和 MMLongBench-Doc 等基准大多只评估最终答案,因此无法判断模型究竟是真的从文档中找到了答案,还是仅仅依赖已有知识猜出来的。他们把这种现象称为“归因幻觉”。CiteVQA 要求模型指出文档中的精确支持元素,例如段落、表格或图表,单独给出页码并不算合格。该数据集包含来自 711 份 PDF 的 1,897 个问题,覆盖七个领域,其中英文问题 451 个、中文问题 260 个,文档平均长度为 40.6 页。
为了避免完全依赖人工标注,研究团队设计了一套自动化流程,将文档拆分为多个元素,再用 Gemini 3.0 Flash 等模型追踪证据链,并检查哪些文档片段真正是必要的。核心指标是 Strict Attributed Accuracy,只有答案正确且引用位置也正确时才计分。在对 20 个模型的测试中,表现最好的 Gemini-3.1-Pro-Preview 也只有 76 分;GPT-5.4 在原始答案准确率上有 87.1 分,但在要求严格引用后骤降到 59 分。开源模型表现更差,Qwen3-VL-235B-A22B 仅得 22.5 分,较小的开源模型通常低于 10 分,研究人员认为这使它们在金融、医疗等受监管场景中风险很高。

资讯正文
AI 模型经常能给出正确答案,却指向错误的来源
要点
- CiteVQA 基准揭示,AI 模型在分析文档时,常常会用错误的文本段落来支撑正确答案,暴露出“答对了”和“正确溯源”之间存在根本性鸿沟。
- 当模型被要求提供精确的来源引用时,性能会急剧下降:Gemini-3.1-Pro-Preview 仅得到 76 分(满分 100),而 GPT-5.4 则从 87.1 分暴跌至 59 分,这表明即便是领先的商用模型,准确引用仍然是一个重大弱点。
- 开源模型的得分更低,这使它们在金融或医疗等受监管行业中尤其危险,因为每一项主张都需要可核查的书面依据,而错误溯源可能带来严重后果。
仅仅因为一个语言模型在 PDF 上答对了问题,并不意味着它真的在自己声称的地方找到了答案。
来自北京大学和上海人工智能实验室的研究人员构建了一个新的基准 CiteVQA,用来揭示“答对”和“指对来源”之间的差距。他们把这种现象称为“归因幻觉”。
像 DocVQA 或 MMLongBench-Doc 这类标准文档分析测试,只会给最终答案打分。它们无法判断模型究竟是从文档中提取了信息,还是仅仅根据已有知识猜出来的。不过,论文认为,在法律、财务审计或医疗场景中,可追溯性恰恰是 AI 输出首先变得可用的前提。
精确锁定证据
CiteVQA 要求模型为每一项陈述提供精确的文档标记作为支撑。模型必须指向确切的段落、表格或图表。仅仅给出页码是不够的。该数据集覆盖 711 份 PDF 中的 1,897 个问题,涵盖七个主题领域:451 个英文问题和 260 个中文问题。文档平均每份 40.6 页,远长于大多数基准。
团队没有手工标注全部内容,而是构建了一条自动化流程。它将文档拆分为单个元素,让 Gemini 3.0 Flash 之类的模型追踪证据链,然后检查哪些部分是真正必需的。每份文档都会以试验方式被抽取出来。如果模型在没有该文档的情况下无法回答问题,那么这份文档就被视为必要文档。
核心指标被称为 Strict Attributed Accuracy(严格归因准确率)。只有当答案正确且引用落在正确位置时,模型才能得分。20 个当前模型都接受了测试。
表现最好的 Gemini-3.1-Pro-Preview 也只拿到 76 分(满分 100)。GPT-5.4 往往知道正确答案,却无法展示推理过程:原始答案质量得分为 87.1,但一旦要求给出正确引用,分数就只有 59。
开源模型的表现要差得多。最强的免费可用系统 Qwen3-VL-235B-A22B 只拿到 22.5 分。研究人员表示,更小的开源模型大多低于 10 分,这使它们对受监管行业而言“极其危险”。
大多数模型甚至连正确页码都找不到。
许多模型甚至都找不到正确的页面。Gemini 3 系列在超过 87% 的情况下能够做到这一点。Qwen3-VL-235B-A22B 则只有略低于 58%。更难的任务会让情况变得更糟。单文档问题仍然表现尚可,但当模型必须整合来自多个文档的信息时,Gemini 3.1 Pro Preview 的召回率会从大约 69% 下降到 55%。
数学任务表现相当不错,因为推理过程需要明显的证据。真正让模型出问题的是:它首先要根据颜色、位置或标题识别文档元素,然后再弄清楚其含义。版式整洁的学术论文得分最高。版式复杂、设计繁忙的报纸和杂志,即便是最强的模型也只能把分数维持在约 63 分。
定位来源是瓶颈
在一项消融研究中,研究人员刻意缩小了搜索空间,只向模型提供相关页面或正确文档。分数迅速上升——Qwen3-VL-8B 提高了 13 分以上。
这个并不意外的结论是:知道该去哪里找的模型,也会给出更好的答案。准确的来源信息会直接提升答案质量,而不只是有助于透明度。这也说明了上下文工程为何如此重要:当 AI 模型获得恰好完成任务所需的信息时,表现才最好。
研究人员已将代码和细节发布在 GitHub 上,数据集也可在 Hugging Face 下载。
同一研究团队——上海人工智能实验室——的另一项基准测试在 2024 年就显示,语言模型在长文档上普遍表现不佳。他们的双语 NeedleBench 测试模型在冗长的英文和中文文本中挖掘相关信息的能力,结果同样惨淡。
Google DeepMind 则通过 FACTS Grounding 处理一个相关问题:它衡量答案是否严格来自所提供的文档,还是模型偷偷掺入了外部知识。即便是 Gemini 3 Pro 和 GPT-5.1,也远谈不上达到可靠的分数。
OpenAI 最近研究了模型为何宁可猜测也不说“我不知道”。在一项分析中,该公司将幻觉描述为一种系统性的激励问题。训练和评估会奖励自信的答案,惩罚含糊其辞。CiteVQA 如今所捕捉到的来源引用中的“归因幻觉”,很可能也受到同样的机制推动。
来源与参考