AI模型宁愿猜测也不愿求助

The Decoder·4月11日 17:39 UTC·作者 Jonathan Kemper

关键信息

该基准测试使用来自七个数据集的超过10.8万张图像，共1.8万个样本，过滤掉无需人工输入即可解决的任务。通过强化学习训练（奖励函数优先考虑正确答案而非猜测）提升了模型的主动性，但性能仍远低于基线准确率。

资讯摘要

一项新研究表明，大多数多模态语言模型在缺少视觉数据时不会主动求助，而是要么编造答案，要么保持沉默。ProactiveBench基准测试通过呈现识别被遮挡物体或解读模糊草图等任务来评估这种行为，这些任务都需要人工输入。在测试的22个模型中，包括GPT-4.1、LLaVA-OV和Qwen2.5-VL，只有少数表现出一定的主动性——而且其中大部分也只是随机猜测。

研究人员发现，仅仅在提示中加入线索并不能解决问题，有些模型甚至重复毫无意义的建议。然而，使用强化学习（GRPO）微调后，模型在真正需要帮助时表现出明显改进——尽管性能仍远低于基线水平。

资讯正文

AI模型宁愿猜测也不愿求助，研究人员发现

ProactiveBench测试多模态语言模型在视觉信息缺失时是否会主动向用户求助。在测试的22个模型中，几乎没有任何一个会主动请求所需信息，但一种简单的强化学习方法暗示了一个可能的解决方案。

如果你让一个人识别一个被遮挡的物体，他们会要求你移开障碍物。多模态语言模型却不是这样运作的。它们要么编造错误答案，要么干脆拒绝回应。新的ProactiveBench基准测试将这一问题置于显微镜下，系统性地检验当今AI模型是否能识别出自己需要帮助，并真正提出请求。

该基准测试整合了七个现有数据集，将其转化为必须依赖人类输入才能解决的测试场景。模型需要识别隐藏物体、清理噪声图像、解读粗糙草图或请求不同拍摄角度。总计而言，ProactiveBench包含超过10.8万张图片，共1.8万个样本。内置过滤器剔除了那些模型能一次性完成的任务；要通过测试，模型必须主动寻求更多信息。

更大的模型并不会问出更好的问题

研究人员对22个多模态语言模型进行了测试，包括LLaVA-OV、Qwen2.5-VL、InternVL3、GPT-4.1、GPT-5.2和o4-mini。在参考设置中对象清晰可见的情况下，这些模型平均完成了79.8%的任务。但在ProactiveBench测试中，这一数字骤降超过60%。

ROD数据集揭示了最显著的问题。当物体被方块遮挡时，准确率从参考设置中的98.3%暴跌至仅8.2%。模型在物体可见时能很好地识别它们，只是从未想过请人帮忙揭开遮挡物。

看似主动的模型其实大多只是随机猜测

一些模型乍看之下似乎比其他模型更主动。研究人员通过用无意义的建议替换有效的主动建议（例如，在草图任务中用“倒带视频”代替合理请求）来进一步验证这一点。此前看似积极的模型同样愉快地选择了毫无意义的选项。LLaVA-NeXT Vicuna在给出虚假选项后，其选择率甚至从37%上升到49%。结论是：看起来像主动性的行为，实际上是更低的猜测门槛，而非真正的理解能力。

在提示词和对话历史中加入明确线索也无法解决问题。提示确实提升了主动建议的比例，使准确率提升至25.8%，但仍低于随机水平。在16%的情况下，模型只是盲目地发送最大允许次数的主动建议。对话历史反而让表现变得更差：模型只是重复历史中的主动行为，而不是从中学习。

强化学习可以教会模型何时开口求助

不过，研究者们发现了一个积极的信号。他们证明了主动性是可以被训练出来的。研究人员使用大约27,000个示例，通过群体相对策略优化（GRPO）对LLaVA-NeXT-Mistral-7B和Qwen2.5-VL-3B进行了微调。关键细节在于：奖励函数会给予正确预测更高的评分，而不是主动建议，因此模型只有在真正卡住时才会寻求帮助。

即便取得了这些进展，与参考设置相比仍存在显著差距（40.7%对比75.1%）。研究者已将ProactiveBench开源，并将其视为迈向一种新型AI模型的第一步——这类模型能够意识到自己缺乏信息，并主动请求帮助，而不是凭空编造。

AI模型并不知道自己不知道什么

ProactiveBench利用了近年来AI研究中反复出现的一种模式：多模态语言模型在处理不确定性方面表现极差。Moonshot AI的WorldVQA基准测试最近发现，即使是顶级模型在视觉物体识别上的表现也仅能达到约50%，这表明它们存在根深蒂固的过度自信。

斯坦福大学的一项研究进一步印证了这一点，该研究将这种现象称为“幻影效应”（Mirage effect）。多模态模型如GPT-5和Gemini 3 Pro即使在没有提供图像的情况下，也会自信地描述视觉细节并给出医学诊断。在标准基准测试中，它们仅依靠文本模式和先验知识就能达到正常性能的70%到80%，本质上是在完全没有输入的情况下伪造出视觉理解能力，却并未意识到输入缺失。

其他研究也讲述了类似的故事。一项关于考试题目难度的研究发现，语言模型无法可靠判断自身的局限性；而罗马萨皮恩扎大学的研究人员则通过他们的“溢出能量”（Spilled Energy）方法表明，幻觉会在模型计算过程中留下可测量的痕迹——这意味着即使模型本身并不知道自己在猜测，其底层数学运算仍然能察觉到这一点。

来源与参考

收录于 2026-04-12