阿里通义团队构建HopChain解决多步视觉推理错误问题
The Decoder··作者 Jonathan Kemper
关键信息
HopChain通过交替使用单对象识别和多对象比较任务,迫使模型在每一步重新审视图像,并利用唯一数字答案进行自动校验,在24个基准测试中提升了20项表现。
资讯摘要
视觉语言模型在复杂视觉推理任务中常因初始小错误(如数错物体或误读空间关系)而产生连锁反应,最终得出错误结论。为解决这一问题,阿里巴巴通义团队与清华大学共同开发了HopChain框架,能自动生成多跳图像问题。每个问题迫使模型重新审视图像、核对先前结果并建立逻辑一致的推理链。
该框架包含两种依赖关系:对象级链接和简单识别与复杂比较任务的交替。测试显示,HopChain在24个基准测试中提升了20项性能,涵盖计数、文字阅读及基于视觉元素的算术推理等挑战性任务。

资讯正文
阿里巴巴Qwen团队开发HopChain以解决AI视觉模型在多步推理中失效的问题
关键要点
- 视觉语言模型在需要对图像进行连续多步推理的任务上持续表现不佳,暴露出其视觉理解能力的根本缺陷。
- 推理链中的早期错误——例如误数物体或混淆空间关系——会逐级传递到后续所有步骤,最终导致完全错误的结果。
- 为解决这一问题,阿里巴巴Qwen团队与清华大学的研究人员共同开发了HopChain框架,该框架能自动生成多步图像问题,每一步都迫使模型重新仔细审视图像,从而暴露并针对性地修复这些累积性错误。
当AI模型对图像进行推理时,微小的感知错误会在多个步骤中不断累积,最终产生错误答案。HopChain框架生成多阶段图像问题,直接针对这一问题,并在24个基准测试中提升了20个。
视觉语言模型(VLMs)在许多图像文本基准测试中表现良好,但在需要对图像进行连续多步推理的任务上却经常失败。阿里巴巴Qwen团队与清华大学的研究人员深入探究了原因,并构建了HopChain框架来解决这个问题。
当VLM生成包含中间步骤的长回答——即所谓的思维链(chain-of-thought)响应时,各种错误便会显现:模型会误数物体、混淆空间关系、虚构细节或得出逻辑错误的结论。这些错误会在推理链中层层放大,一个早期识别错误就会导致看似合理但最终错误的推理过程。
现有的基于可验证奖励的强化学习(RLVR)训练数据几乎不包含需要跨多个步骤进行细致视觉关注的任务。
计错的圆点和读错的停车动作
在一个例子中,模型需要数出几只瓢虫身上的圆点,但它在五只甲虫中有三只各少算了一个点,最终总数明显错误。另一个案例中,模型正确识别了图像序列中汽车的位置,但却将车辆的动作解读为驶出停车位而非驶入。第三个例子显示,模型在天文图中标注箭头指向了错误的弧线,从而得出错误的季节判断。
这些例子涵盖照片、图表和科学插图,但都遵循相同的模式:一个错误的中间步骤会污染后续所有内容。
多步图像问题迫使模型持续关注图像
阿里巴巴的通义千问团队开发了HopChain,旨在解决AI视觉模型在多步骤推理过程中性能下降的问题。
HopChain会自动生成图像问题,每个步骤都基于前序结果,并迫使模型重新审视图像。研究人员设计了两种类型的链接:首先,任务在单对象识别(如读取文字或识别颜色)和多对象比较(如尺寸比例或空间布局)之间交替;其次,每个问题都遵循对象间的依赖链,模型只能通过已识别的对象找到下一个相关对象。
每个问题以一个唯一编号结尾,作为自动答案校验机制。论文中举了一个例子,说明这些问题可以多么复杂:模型首先计算玩具羊的眼睛数量,然后检查背景纸张上是否有文字;接着计算附近玩偶的眼睛数,读取第二个玩偶前方纸张上的单词,统计字母数,进行一系列算术运算,并将结果乘以场景中所有玩具的数量。正确答案是72。
四个阶段结合人工质量控制
数据生成分为四个阶段。首先,阿里巴巴的Qwen3-VL-235B-A22B-Thinking语言模型识别图像中的对象类别;随后,Meta的分割模型SAM3定位这些类别的具体实例。
第三步,语言模型围绕三到六个对象的组合构建多层次图像问题;第四步,四位标注员独立解答每个问题。
只有四位标注员答案一致的问题才会被保留,同时那些弱模型也能轻易处理的问题也会被剔除。这一流程每种模型可产生约6万至8万条训练样本。
HopChain提升24个基准测试中的20个
研究人员用这种方法训练了两个模型:Qwen3.5-35B-A3B 和 Qwen3.5-397B-A17B。他们对比了仅使用现有训练数据的RLVR与加入HopChain问题后的RLVR,在四大类共24个基准测试中评估表现:STEM与谜题、通用图像理解、文本识别与文档理解、视频理解。
尽管训练数据完全基于图像,这两个模型在六个视频基准测试中也提升了五个,表明HopChain所教授的能力可以迁移到静态图像之外。
完整的推理链条带来关键差异
消融研究表明,完整的推理链至关重要。当问题只保留最后一步时,五个代表性基准测试的平均得分从70.4降至64.3;若仅保留链条后半部分,则得分为66.7。
收益还随着推理链长度增加而提升。对于特别长的推理路径,大模型的准确率提升最高可达50分。错误分析确认,HopChain在各项错误类型上均有改善:感知错误、逻辑错误、知识错误和幻觉错误均获得相当程度的改进,且修复错误的分布紧密贴合原始错误模式。
一个局限在于:该流程依赖SAM3来识别图像中的对象,因此无法分割的对象图像会被排除在数据生成之外。
阿里云通义团队开发了HopChain,以解决AI视觉模型在多步骤推理过程中容易失效的问题。
最近,Moonshot AI的WorldVQA基准测试也揭示了视觉感知仍是当前模型的核心短板。即使得分最高的模型,对展示物体的正确识别率也低于一半,且所有模型都系统性地高估了自己的准确度。
此外,斯坦福的一项分析发现,前沿模型在图像基准测试中获得70%到80%的分数时,从未真正见过任何图像,却自信地描述出并不存在的视觉细节。
AI新闻,无炒作——由人类精选
来源与参考