斯坦福研究揭示多模态AI模型的‘幻影效应’

The Decoder··作者 Maximilian Schreiner

关键信息

Phantom-0 基准测试显示,超过60%的受测模型在无图情况下仍自信生成描述,加上标准提示后比例升至90–100%。在医学任务中,伪造诊断明显偏向严重病症,如STEMI或黑色素瘤。

资讯摘要

斯坦福大学的研究发现,包括 GPT-5、Gemini 3 Pro 和 Claude Opus 4.5 在内的顶级多模态AI模型即使没有图像输入也能生成详细的图像描述。研究人员将此称为“幻影效应”:模型仅凭文本构建虚假视觉推理,仿佛图像确实存在。平均而言,这些模型在未看到任何图像的情况下仍能达到其基准分数的70%至80%,其余部分来自文本模式和问题结构。

医学应用尤其令人担忧:当被要求诊断不存在的X光片或MRI时,模型常推荐严重疾病,如心肌梗死或癌症。这削弱了现有基准测试的可靠性,并引发了关于实际部署中伦理风险的紧迫关注。

斯坦福研究揭示多模态AI模型的‘幻影效应’

资讯正文

AI模型自信地描述它们从未见过的图像,而基准测试却未能发现这一点

多模态AI模型如GPT-5、Gemini 3 Pro和Claude Opus 4.5即使在没有提供图像的情况下,也能生成详细的图像描述和医学诊断。斯坦福大学的一项研究表明,常见的基准测试掩盖了这一问题。

像GPT-5和Gemini 3 Pro这样的多模态AI模型在图像基准测试中得分很高,并因此被宣传为具备视觉能力。但根据斯坦福大学的研究,这些模型在完全不提供图像的情况下仍能达到原成绩的70%至80%。此时,模型会自信地描述不存在的视觉细节,并给出看似合理的解释来支持其答案。

研究人员将这种现象称为“幻影效应”。该效应影响所有测试过的前沿模型,在开发者通过API将这些模型集成到医疗或高安全要求的应用程序中时,可能带来严重后果,因为开发者往往依赖基准测试结果作为质量衡量标准。

幻影效应与幻觉本质上不同

研究人员明确区分了幻影效应与幻觉。幻觉是在有效参考框架内出现的虚假细节——比如在整体连贯文本中编造引用。而幻影效应完全不同:模型构建了一个虚假的认知框架,表现得好像视觉输入存在,并基于这一假设进行全部推理。

为了衡量问题的范围,研究团队开发了一个名为“Phantom-0”的基准测试,包含200个跨20类主题的视觉问题,但未附带任何图像。根据研究结果,所有测试过的前沿模型(包括GPT-5、GPT-5.1、GPT-5.2、Gemini 3 Pro、Claude Opus 4.5和Claude Sonnet 4.5)在超过60%的情况下都会自信地描述视觉细节;当加入典型评估流程中常见的额外提示指令后,这一比例跃升至90%至100%。

伪造的医学诊断明显偏向严重病理情况

在医学领域,结果尤其令人担忧。研究人员让Gemini 3 Pro描述不存在的图像,并在五个临床类别中提供诊断:X光片、脑部MRI、心电图、病理学和皮肤科。每个问题重复使用200个不同的随机种子。

研究发现,基于幻影的诊断明显偏向严重疾病。最常见的诊断包括ST段抬高型心肌梗死(STEMI)、黑色素瘤和癌肿。虽然“正常”和“无诊断”也出现在前几项响应中,但病理发现累计占绝对优势。

实际上,这可能意味着一次图像上传失败会导致对根本不存在的疾病的紧急建议。特别是在基于API的应用程序和代理工具中,很难验证图像是否确实到达。

这项研究还揭示了这一问题如何深刻地扭曲了模型评估。研究人员在六个成熟的基准测试上测试了四种前沿模型(Gemini 3 Pro、Gemini 2.5 Pro、GPT-5.1、Claude Opus 4.5):用于通用视觉理解的MMMU-Pro、Video-MMMU 和 Video-MME,以及用于医学图像分析的VQA-Rad、MicroVQA 和 MedXpertQA-MM。

核心发现是:这些模型在从未见过图像的情况下,仍能达到其完整基准准确率的70%到80%。真正图像只贡献了剩余的20%到30%的整体性能。支撑这些模型视觉能力宣称的大多数结果,实际上来自文本模式、先验知识和问题中的结构线索。

这种差距在医学基准中最为显著。在这些任务中,模型仅通过文本就能达到其图像模式准确率的99%,而实际图像几乎未提供任何帮助。

这些数字具有直接的实际后果。企业和医院根据基准排名选择AI模型。如果这些排名主要反映的是非视觉推理能力,那么它们对模型真实视觉能力的说明就非常有限。

一个仅有30亿参数的纯文本模型击败了所有前沿模型和放射科医生

为了展示基于文本的捷径能走多远,研究人员训练了一个“超级猜测者”:一个基于Qwen 2.5、拥有30亿参数的纯文本模型,它在ReXVQA基准的公开训练集上进行微调——该数据集中所有图像均被移除。基础模型发布于该基准之前一年,以最大程度降低数据泄露风险。

根据研究,这个纯文本模型在保留的测试集上超越了所有前沿多模态模型(包括那些拥有数百亿参数的模型),并且平均而言比人类放射科医生高出超过10个百分点。它生成的解释有时甚至与真实标注的推理无法区分。一个完全无法访问任何图像的模型,既给出了正确答案,也提供了合理的视觉依据。

当前的基准测试未能衡量它们所承诺的内容

“超级猜测者”实验暴露了一个两面性的问题。一方面,模型利用文本先验知识和统计模式作为捷径,而不是真正处理图像;另一方面,基准测试恰恰允许这种行为发生:它们的问题包含足够的语言线索、结构规律和隐含的答案分布,使得纯文本模型也能解决这些问题。这两方面相互强化。

这项研究强调,目前尚不清楚多模态模型实际上能看懂多少。高分基准测试结果并不能证明模型真的处理了图像,推理痕迹也无法揭示视觉依据是否基于真实输入,还是基于幻觉。研究人员并不否认模型原则上能够处理图像;他们的发现更具体:当前的基准测试无法区分模型是否真的使用了图像,还是仅从文本中得出答案。根据研究,这种无声的故障模式在不同领域中表现各异——一个在自然图像上以视觉为基础工作的模型,并不一定能在X光片或病理切片上做到这一点。

模型在幻觉状态下得分更高,而非猜测时

进一步实验表明,这种幻觉效应并非简单的猜测。研究人员比较了GPT-5.1在两种设置下的表现:在幻觉模式下,模型接收到视觉问题但没有图像,也没有任何提示说明图像缺失;而在猜测模式下,模型明确被告知没有图像,并被要求选择最可能的答案。

几乎所有基准类别中,模型在猜测模式下的表现都下降了。在这两种情况下模型获取的信息相同:问题文本和其训练所得的世界知识。研究人员指出,区别在于处理机制:在猜测模式下,模型知道没有图像存在,因此采取保守策略,仅从问题文本中的明显线索推导答案;而在幻觉模式下,模型则表现得仿佛图像确实存在,构建出合理的感知叙事,并激活那些在无图像意识状态下无法调用的关联和模式。

此前用于识别与图像无关问题的基准控制方法,通过显式猜测来检测,因此系统性地低估了问题严重性:它们只捕捉到模型在保守模式下不依赖图像时能解决的问题,而非它在幻觉模式下取得的成绩。

清理后的基准重新排序模型排名

作为解决方案,研究人员提出了“B-Clean”框架。该框架首先评估每个候选模型在幻觉模式下的表现,然后移除至少有一个模型在无图像情况下正确回答的问题。最终保留的问题是:所有测试模型都无法在没有视觉输入的情况下解答的问题。

研究人员将B-Clean应用于三个基准测试,候选模型包括GPT-5.1、Gemini 2.5 Pro和Gemini 3 Pro。在此过程中,74%至77%的问题被剔除。研究人员指出,这并不意味着这些问题本身设计不佳。如此高的过滤率反映了多种因素的混合:无意的数据污染、问题表述中隐藏的统计模式,以及允许模型无需图像即可正确作答的分布特征。

研究人员强调,B-Clean并不能提供绝对数值:清理后的结果仅适用于所测试模型之间的相对比较,不能推广到其他模型。然而,B-Clean提供了一种在现有基准上进行相对且以视觉为依据的比较方法,而无需不断创建新的基准测试。

AI模型自信地描述它们从未见过的图像,而基准测试却未能发现这一点

除了这一点,研究人员提出了三个要求:模态消融测试应成为每个多模态评估工作流程的标准。该领域应转向私有或动态更新的基准测试,以防止其被吸收进预训练数据。评估指标应衡量的不是绝对准确率,而是有图和无图情况下的性能差异。

更强的语言能力使问题更严重,而非改善

研究人员推测,这种幻象效应源于这些系统是如何训练的。现代多模态模型建立在基于网络规模语料库预训练的语言模型之上,使其能够从稀疏线索中检索统计规律并重构合理的上下文。在多模态训练过程中,模型会接收到一张图片、一个问题和一个答案。人类在这种设置下会直观地依赖图像,正如研究人员指出的那样,因为人类“无法访问整个文本语料库”。然而,语言模型已经内化了这些先验知识。为了优化正确的下一个词预测,它可以选择更短的路径,在语言先验已导向正确答案时忽略视觉信息。

这种效应并非静态不变。根据研究,不同代际模型的幻象率显示,同一模型的新版本往往比旧版本表现出更高的幻象率。更好的语言能力似乎放大了这一效应,而非修复它。

研究人员写道:“随着模型成为更强大的语言推理者,其语言能力掩盖其他模态缺陷的风险也在增加。”这项研究并未质疑前沿模型的一般文本能力,而是质疑它们所声称的视觉理解能力——以及当前基准测试是否适合衡量这种能力。

AI新闻,去伪存真——由人类精选

来源与参考

  1. 原始链接
  2. AI models confidently describe images they never saw, and benchmarks fail to catch it

收录于 2026-03-31