最新AI模型因三种系统性推理错误而失败

The Decoder··作者 Matthias Bastian

关键信息

三种错误包括将局部观察误认为全局规则、将新环境与训练数据中的熟悉游戏混淆,以及未能验证成功策略为何有效——导致错误理论在多关卡中持续存在。

资讯摘要

ARC奖基金会分析了OpenAI的GPT-5.5和Anthropic的Opus 4.7在交互式ARC-AGI-3基准测试中的160次游戏运行,该测试评估AI探索未知环境并构建自适应世界模型的能力。这些模型始终低于1%的成功率,不是因为缺乏努力,而是由于三种系统性推理缺陷:(1) 认识到孤立动作但无法建立连贯的世界模型;(2) 将新机制误认为熟悉的Tetris或Breakout等游戏;(3) 在不验证底层逻辑的情况下解决关卡,导致错误理论固化。这些发现表明,当前AI仍缺乏深层因果推理和稳健的假设测试能力,这对实现通用人工智能(AGI)至关重要。

最新AI模型因三种系统性推理错误而失败

资讯正文

即使是最新的人工智能模型也会犯三种系统性推理错误,ARC-AGI-3分析显示

ARC奖基金会对OpenAI的GPT-5.5和Anthropic的Opus 4.7在ARC-AGI-3基准测试中的160次游戏运行进行了分析。结果揭示了两种模型都存在的三种系统性错误模式,这些模式解释了为何两者得分均低于1%。

通常,人工智能基准测试仅显示模型是否通过或失败。而ARC奖基金会则更进一步:团队评估了来自OpenAI的GPT-5.5和Anthropic的Opus 4.7在ARC-AGI-3交互环境中的160次重放和推理轨迹。

该基准测试于2026年3月底发布,用于测试人工智能系统在交互式、回合制游戏环境中的表现。与依赖静态模式识别的前代模型不同,AI代理必须自主探索环境、形成假设并执行行动计划,且没有任何指令。

据基准测试开发者称,更有趣的是失败背后的推理过程。记录下来的“推理轨迹”让研究人员能够精确追踪模型何时形成假设、何时否定了正确的假设,以及何时困在了一个错误的假设中。

模型看到细节却忽略整体图景

分析发现了两种模型共有的三种系统性错误模式,尽管表现方式不同。最常见的模式是:模型能正确识别局部效应,但无法将其转化为有效的世界模型。例如,一个模型可能知道某个操作会旋转物体,但却无法理解旋转决定了哪一侧会获得新值,以及物体在下一步操作前需要先对齐。

根据分析,在游戏cd82中,Opus 4.7早在第4步就已知道ACTION3会旋转容器;到第6步时,它又识别出ACTION5会倒油漆。但该模型从未将这些观察联系起来,从而意识到自己需要先对齐桶体,再将其浸入以重现左上角的目标图像。

在cn04游戏中也出现了类似情况:Opus在第23步找到了正确的“旋转后放置”交互方式,但随后却优化了错误的目标,并开始追踪一个根本不存在的进度条。

训练数据导致错误类比

第二种错误模式:模型将未知环境误认为是其训练数据中熟悉的游戏。在多次运行中,模型反复将未知机制误判为俄罗斯方块(Tetris)、青蛙过河(Frogger)、推箱子(Sokoban)、打砖块(Breakout)、乒乓球(Pong)或岩石跳跃(Boulder Dash)。

一种松散的视觉相似性演变为完整的玩法理论,模型因此浪费行动在错误的机制上。例如,GPT-5.5将ls20环境误认为是打砖块游戏,实际上该游戏涉及按键组合。

“这或许更像‘打砖块’,顶部有砖块,下方有挡板。中间对象可能是球,”该模型在其推理轨迹中写道。这种毫无根据的假设彻底扼杀了任何进展的可能性——一个熟悉打砖块游戏的人几乎不会犯这样的错误。

通关不代表真正理解游戏

第三种错误模式可能是最严重的。即使模型成功解决了某一级别,这种成功也不会转化为更深入的理解,因为模型从未检查其策略为何有效。

在ka59中,Opus用了37步解开了第一关,但基于一个错误的理论:它假设点击会传送活跃角色。实际上,游戏需要形状匹配和推动操作。第一关之所以被解开,仅仅是因为其简单的结构恰好在错误机制下也能达到目标。

由于模型将这一成功视为传送理论的证实,错误假设逐渐固化为‘点击每个目标填满它’,到了第二关已无法纠正。在ar25中,同样的模式出现在另一关:Opus第一关正确识别了镜像运动原理,并且在第二关注意到可移动轴的新机制。但它没有沿着正确的观察继续探索,反而陷入虚构规则,试图‘打洞’或镜像物体。正确的思路被错误假设淹没。

这两个案例都表明,如果模型不分析赢得关卡的原因,就会把误解带入下一关。

Opus执着于错误理论,GPT-5.5却无法坚持正确思路。

根据分析,Opus 4.7更能早期发现机制。在ar25中,它几乎立刻识别出镜像结构并解开了第一关。但Opus倾向于强烈锁定一个错误规则且绝不放手。例如在cn04中,它发明了一个进度与转化理论,在早期游戏中盲目点击以维持该框架。它确实有一个理论,只是方向错了。

GPT-5.5则正好相反。它的假设生成范围更广,因此更可能找到正确思路,但却无法将其转化为行动计划。在ar25中,它正确识别了镜像效应,却不断扩展可能性空间,循环尝试俄罗斯方块、青蛙过河、乒乓和汉诺塔等游戏,而不是坚定执行。模型看到了正确方法,却无法付诸实践。

ARC奖基金会的格雷格·卡姆拉德特写道:‘差异源于压缩能力。Opus将观察压缩成一个自信但错误的理论;GPT-5.5则完全无法进行压缩。’

这些错误模式的影响可能超出基准测试范围。

ARC奖基金会认为,这些错误模式直接关系到真实的人工智能代理。这135个环境中的每一个,都被至少两名人类在无特殊训练的情况下解决。

对模型而言困难的地方,正是AI代理在实际工作环境中面临的挑战:导航一个完全未知的事物,形成理论,验证它,并在结果不符时更新认知。无论是陌生网站、内部工具还是未文档化的API。

卡姆拉德特写道:‘分数告诉你模型实现了什么;重放视频则能揭示其推理是否具备泛化潜力。’该基金会计划持续用ARC-AGI-3审计每次前沿大模型发布。

其他研究也得出相同结论。

分析显示,即使是最新的人工智能模型也会犯下三种系统性推理错误

这项分析可能会加强那些多年来一直批评大型语言模型的论点:这些模型只是复杂的模式匹配器,缺乏真正的理解能力。当GPT-5.5本能地将一个未知的游戏环境标记为Breakout时,这说明了语言模型是在已学模式之间进行插值,而不是形成抽象规则。而Opus 4.7偶然解出一道关卡,并将背后错误的理论当作已证实的结果,也印证了当前人工智能系统并未构建因果世界模型,而是追逐统计相关性的批评。

其他几项研究得出了类似的结论。苹果公司的研究人员发现,推理模型在可控拼图环境中复杂度增加时不仅失败,反而会更少地进行推理。一项对超过17.1万条推理轨迹的大规模认知科学研究表明,当面对困难任务时,语言模型会退回到简单的默认策略,而不是真正地进行推理。此外,一项医学研究显示,即使是在研究当时最先进的推理模型,如DeepSeek-R1和o3-mini,在问题稍作改写后也会失败,这暗示它们依赖的是模式匹配而非真正的理解。

来源与参考

  1. 原始链接
  2. Even the latest AI models make three systematic reasoning errors, ARC-AGI-3 analysis shows

收录于 2026-05-03