CiteVQA揭示AI答对却引错源

The Decoder·5月25日 15:30 UTC·作者 Jonathan Kemper

关键信息

CiteVQA 包含来自 711 份 PDF 的 1,897 个问题，覆盖七个领域，文档平均长度为 40.6 页，同时包含英文和中文。核心指标是 Strict Attributed Accuracy，只有答案正确且引用位置也正确才算得分；在这一标准下，Gemini-3.1-Pro-Preview 得分为 76/100，而 GPT-5.4 的原始答题质量为 87.1，但在要求正确引用后降至 59。

资讯摘要

这篇报道指出，文档问答类 AI 存在一个重要的评估盲区：模型可能给出正确答案，却指向错误的证据来源。为了揭示这个问题，北京大学和上海人工智能实验室的研究人员提出了 CiteVQA 基准，专门检验模型是否不仅能答对，还能准确说明答案来自文档中的哪里。

与 DocVQA 或 MMLongBench-Doc 等只看最终答案的测试不同，CiteVQA 要求模型精确标出支撑每个结论的段落、表格或图表。这里只给出页码是不够的，因为研究者想测量的是模型是否真的找到了文档中的证据。这个数据集包含 711 份 PDF、1,897 个问题，覆盖七个领域，且文档平均长度达到 40.6 页，明显长于许多常见基准。

为了避免全部人工标注，研究团队使用了自动化流程：先把文档拆成独立元素，再用 Gemini 3.0 Flash 等模型追踪证据链，最后逐个验证哪些文档内容是回答所必需的。如果去掉某份文档后模型就无法回答，这份文档就被视为关键证据。

他们采用的核心指标是 Strict Attributed Accuracy，只有当答案正确且引用位置也正确时才算得分。研究共测试了 20 个当前模型，其中表现最好的 Gemini-3.1-Pro-Preview 也只有 76 分。GPT-5.4 在纯答题准确率上达到 87.1，但一旦要求给出正确引用，分数就降到 59，说明它常常“知道答案”，却无法证明答案从哪里来。

开源模型的表现则差得多。最强的免费模型 Qwen3-VL-235B-A22B 只得到 22.5 分，而更小的开源模型大多低于 10 分，研究者认为这对受监管行业来说“极其危险”。很多模型甚至连正确页面都很难定位：Gemini 3 系列在找页方面表现最好，但 Qwen3-VL-235B-A22B 的命中率仍不到 58%。

论文还显示，当模型需要跨多个文档整合信息，或者先根据颜色、位置、标题找到某个文档元素，再解释其含义时，任务会显著变难。排版整洁的学术论文最容易处理，而报纸和杂志这类版面复杂的材料，即使是顶尖模型也只能拿到大约 63 分。消融实验表明，如果故意缩小搜索范围，比如只给模型相关页面，成绩会迅速提升，这说明“先找到源，再回答”是关键瓶颈，也说明上下文工程不仅影响透明度，还会直接影响答案质量。

研究团队已经把代码发布到 GitHub，并把数据集放到了 Hugging Face 上供下载。文章还提到，同一团队在 2024 年发布过 NeedleBench，用于测试模型在中英长文档中的检索能力，而 Google DeepMind 的 FACTS Grounding 也是相关方向的工作。

资讯正文

AI 模型常常能给出正确答案，却指向错误的来源

仅仅因为一个语言模型能准确回答一个关于 PDF 的问题，并不意味着它真的在自己声称的地方找到了答案。

北京大学和上海人工智能实验室的研究人员构建了一个名为 CiteVQA 的新基准，用来揭示“答对了”和“指对了来源”之间的差距。他们将这种现象称为“归因幻觉”。

像 DocVQA 或 MMLongBench-Doc 这样的标准文档分析测试，只会给最终答案打分。它们无法判断模型究竟是从文档中真正提取了信息，还是只是根据已有知识猜测出来的。不过，论文指出，在法律、财务审计或医学等领域，可追溯性恰恰是让 AI 输出具备实际可用性的前提。

定位证据

CiteVQA 要求模型为每一项陈述都提供文档中的精确标记作为支撑。它们必须指向确切的段落、表格或图表，仅给出页码是不够的。该数据集涵盖 711 份 PDF 中的 1,897 个问题，来自七个学科领域：其中 451 个为英文，260 个为中文。文档平均每份 40.6 页，远长于大多数基准。

研究团队并未逐一手工标注，而是搭建了一条自动化流水线。它会将文档拆分为单个元素，让 Gemini 3.0 Flash 之类的模型追踪证据链，然后检查哪些部分确实是必需的。每份文档都会以试验方式被单独抽取出来。如果模型在没有这份文档的情况下无法回答问题，那么这份文档就被算作关键证据。

核心指标被称为 Strict Attributed Accuracy。只有当答案正确且引用命中正确位置时，模型才会得分。共有 20 个当前模型接受了测试。

表现最好的 Gemini-3.1-Pro-Preview 只拿到了 100 分中的 76 分。GPT-5.4 往往知道正确答案，却无法展示推理依据：原始答案质量得分为 87.1，而在要求给出正确引用后，得分仅为 59。

开源模型的表现则差得多。Qwen3-VL-235B-A22B 作为最强的免费可用系统，也只拿到 22.5 分。研究人员表示，更小的开源模型大多低于 10 分，这使它们对于受监管行业来说“极其危险”。

大多数模型甚至连正确页面都找不到

许多模型甚至找不到正确的页面。Gemini 3 系列在超过 87% 的情况下都能做到这一点。Qwen3-VL-235B-A22B 则只能达到略低于 58%。更困难的任务会让情况进一步恶化。单文档问题仍然表现尚可，但当模型必须从多个文档中整合信息时，Gemini 3.1 Pro Preview 的召回率会从约 69% 降至 55%。

数学任务的表现相当不错，因为其逻辑要求明显的证据。问题出现在模型首先必须根据颜色、位置或标题识别文档元素，然后再弄清其含义时。版式整齐的学术论文得分最高。版面繁忙的报纸和杂志，即便是顶级模型，也只能把分数压到大约 63 分。

定位来源是瓶颈

在一项消融研究中，研究人员有意缩小了搜索空间，只向模型提供相关页面或正确文档。分数随之迅速上升——Qwen3-VL-8B 提升了 13 分以上。

一个不太令人意外的结论是：知道该去哪里找信息的模型，也会给出更好的答案。准确的来源信息会直接提升答案质量，而不仅仅是关乎透明度。这也说明了为什么上下文工程如此重要：当 AI 模型得到完成任务所需的恰好信息时，它的表现最好。

研究人员已在 GitHub 上发布了代码和详细信息，而数据集也可在 Hugging Face 上下载。

同一研究团队——上海人工智能实验室——的另一项基准测试早在 2024 年就显示，语言模型在长文档上的表现整体都不理想。他们的双语 NeedleBench 测试模型在较长的英文和中文文本中挖掘相关信息的能力，结果同样不容乐观。

Google DeepMind 正在通过 FACTS Grounding 解决一个相关问题。该测试衡量答案是否严格来自所提供的文档，还是模型偷偷引入了外部知识。即便是 Gemini 3 Pro 和 GPT-5.1，也远未达到可靠的分数。

OpenAI 最近研究了为什么模型会猜测，而不是直接说“我不知道”。在一项分析中，该公司将幻觉描述为一种系统性的激励问题。训练和评估会奖励自信的回答，并惩罚含糊其辞。同样的动态很可能也助长了 CiteVQA 现在在来源引文中捕捉到的“归因幻觉”。

来源与参考

收录于 2026-05-26