最新AI模型因三种系统性推理错误而失败

The Decoder·5月2日 21:31 UTC·作者 Matthias Bastian

关键信息

三种错误包括将局部观察误认为全局规则、将新环境与训练数据中的熟悉游戏混淆，以及未能验证成功策略为何有效——导致错误理论在多关卡中持续存在。

资讯摘要

ARC奖基金会分析了OpenAI的GPT-5.5和Anthropic的Opus 4.7在交互式ARC-AGI-3基准测试中的160次游戏运行，该测试评估AI探索未知环境并构建自适应世界模型的能力。这些模型始终低于1%的成功率，不是因为缺乏努力，而是由于三种系统性推理缺陷：(1) 认识到孤立动作但无法建立连贯的世界模型；(2) 将新机制误认为熟悉的Tetris或Breakout等游戏；(3) 在不验证底层逻辑的情况下解决关卡，导致错误理论固化。这些发现表明，当前AI仍缺乏深层因果推理和稳健的假设测试能力，这对实现通用人工智能（AGI）至关重要。

资讯正文

即使是最新的人工智能模型也会犯三种系统性推理错误，ARC-AGI-3分析显示

ARC奖基金会对OpenAI的GPT-5.5和Anthropic的Opus 4.7在ARC-AGI-3基准测试中的160次游戏运行进行了分析。结果揭示了两种模型都存在的三种系统性错误模式，这些模式解释了为何两者得分均低于1%。

通常，人工智能基准测试仅显示模型是否通过或失败。而ARC奖基金会则更进一步：团队评估了来自OpenAI的GPT-5.5和Anthropic的Opus 4.7在ARC-AGI-3交互环境中的160次重放和推理轨迹。

该基准测试于2026年3月底发布，用于测试人工智能系统在交互式、回合制游戏环境中的表现。与依赖静态模式识别的前代模型不同，AI代理必须自主探索环境、形成假设并执行行动计划，且没有任何指令。

据基准测试开发者称，更有趣的是失败背后的推理过程。记录下来的“推理轨迹”让研究人员能够精确追踪模型何时形成假设、何时否定了正确的假设，以及何时困在了一个错误的假设中。

模型看到细节却忽略整体图景

分析发现了两种模型共有的三种系统性错误模式，尽管表现方式不同。最常见的模式是：模型能正确识别局部效应，但无法将其转化为有效的世界模型。例如，一个模型可能知道某个操作会旋转物体，但却无法理解旋转决定了哪一侧会获得新值，以及物体在下一步操作前需要先对齐。

根据分析，在游戏cd82中，Opus 4.7早在第4步就已知道ACTION3会旋转容器；到第6步时，它又识别出ACTION5会倒油漆。但该模型从未将这些观察联系起来，从而意识到自己需要先对齐桶体，再将其浸入以重现左上角的目标图像。

在cn04游戏中也出现了类似情况：Opus在第23步找到了正确的“旋转后放置”交互方式，但随后却优化了错误的目标，并开始追踪一个根本不存在的进度条。

训练数据导致错误类比

第二种错误模式：模型将未知环境误认为是其训练数据中熟悉的游戏。在多次运行中，模型反复将未知机制误判为俄罗斯方块（Tetris）、青蛙过河（Frogger）、推箱子（Sokoban）、打砖块（Breakout）、乒乓球（Pong）或岩石跳跃（Boulder Dash）。

一种松散的视觉相似性演变为完整的玩法理论，模型因此浪费行动在错误的机制上。例如，GPT-5.5将ls20环境误认为是打砖块游戏，实际上该游戏涉及按键组合。

“这或许更像‘打砖块’，顶部有砖块，下方有挡板。中间对象可能是球，”该模型在其推理轨迹中写道。这种毫无根据的假设彻底扼杀了任何进展的可能性——一个熟悉打砖块游戏的人几乎不会犯这样的错误。

通关不代表真正理解游戏

第三种错误模式可能是最严重的。即使模型成功解决了某一级别，这种成功也不会转化为更深入的理解，因为模型从未检查其策略为何有效。

在ka59中，Opus用了37步解开了第一关，但基于一个错误的理论：它假设点击会传送活跃角色。实际上，游戏需要形状匹配和推动操作。第一关之所以被解开，仅仅是因为其简单的结构恰好在错误机制下也能达到目标。

由于模型将这一成功视为传送理论的证实，错误假设逐渐固化为‘点击每个目标填满它’，到了第二关已无法纠正。在ar25中，同样的模式出现在另一关：Opus第一关正确识别了镜像运动原理，并且在第二关注意到可移动轴的新机制。但它没有沿着正确的观察继续探索，反而陷入虚构规则，试图‘打洞’或镜像物体。正确的思路被错误假设淹没。

这两个案例都表明，如果模型不分析赢得关卡的原因，就会把误解带入下一关。

Opus执着于错误理论，GPT-5.5却无法坚持正确思路。

根据分析，Opus 4.7更能早期发现机制。在ar25中，它几乎立刻识别出镜像结构并解开了第一关。但Opus倾向于强烈锁定一个错误规则且绝不放手。例如在cn04中，它发明了一个进度与转化理论，在早期游戏中盲目点击以维持该框架。它确实有一个理论，只是方向错了。

GPT-5.5则正好相反。它的假设生成范围更广，因此更可能找到正确思路，但却无法将其转化为行动计划。在ar25中，它正确识别了镜像效应，却不断扩展可能性空间，循环尝试俄罗斯方块、青蛙过河、乒乓和汉诺塔等游戏，而不是坚定执行。模型看到了正确方法，却无法付诸实践。

ARC奖基金会的格雷格·卡姆拉德特写道：‘差异源于压缩能力。Opus将观察压缩成一个自信但错误的理论；GPT-5.5则完全无法进行压缩。’

这些错误模式的影响可能超出基准测试范围。

ARC奖基金会认为，这些错误模式直接关系到真实的人工智能代理。这135个环境中的每一个，都被至少两名人类在无特殊训练的情况下解决。

对模型而言困难的地方，正是AI代理在实际工作环境中面临的挑战：导航一个完全未知的事物，形成理论，验证它，并在结果不符时更新认知。无论是陌生网站、内部工具还是未文档化的API。

卡姆拉德特写道：‘分数告诉你模型实现了什么；重放视频则能揭示其推理是否具备泛化潜力。’该基金会计划持续用ARC-AGI-3审计每次前沿大模型发布。

其他研究也得出相同结论。

分析显示，即使是最新的人工智能模型也会犯下三种系统性推理错误

这项分析可能会加强那些多年来一直批评大型语言模型的论点：这些模型只是复杂的模式匹配器，缺乏真正的理解能力。当GPT-5.5本能地将一个未知的游戏环境标记为Breakout时，这说明了语言模型是在已学模式之间进行插值，而不是形成抽象规则。而Opus 4.7偶然解出一道关卡，并将背后错误的理论当作已证实的结果，也印证了当前人工智能系统并未构建因果世界模型，而是追逐统计相关性的批评。

其他几项研究得出了类似的结论。苹果公司的研究人员发现，推理模型在可控拼图环境中复杂度增加时不仅失败，反而会更少地进行推理。一项对超过17.1万条推理轨迹的大规模认知科学研究表明，当面对困难任务时，语言模型会退回到简单的默认策略，而不是真正地进行推理。此外，一项医学研究显示，即使是在研究当时最先进的推理模型，如DeepSeek-R1和o3-mini，在问题稍作改写后也会失败，这暗示它们依赖的是模式匹配而非真正的理解。

来源与参考

收录于 2026-05-03