世界行动模型让机器人预测后果

The Decoder·5月17日 21:15 UTC·作者 Jonathan Kemper

关键信息

这篇综述将大约 100 篇论文分成两大类：Cascaded WAMs 先生成预测的未来视频或图像，再从中推导控制指令；Joint WAMs 则在统一模型中同时预测视觉和动作。文章还指出了现实中的数据瓶颈，包括昂贵的遥操作数据，以及 Open X-Embodiment 和 DROID 这类跨实验室大规模数据集。

资讯摘要

这篇文章介绍了一篇新的综述论文，它将“世界行动模型”（World Action Models, WAMs）正式定义为一种机器人 AI 范式，目标是突破传统“观察到动作”的直接映射方式。与常见的视觉-语言-动作模型不同，WAMs 会先建立一个内部物理世界模型，并在选择控制指令之前，先模拟某个动作会如何改变环境。作者认为，这种能力能让机器人更好地泛化到陌生物体和陌生场景，因为策略不只是依据外观做判断，而是建立在对后果的预测之上。WAMs 的另一大优势是可以利用无标注的日常视频进行训练，包括以前对机器人学习帮助有限的第一视角视频。综述指出，这使得机器人学习有机会摆脱昂贵且难以规模化的遥操作演示数据。

论文把大约一百篇相关工作分成两大体系。Cascaded WAMs 先生成未来的图像或视频，再根据这些预测推导控制动作，例如 UniPi 会生成完整视频并通过逆模型推断动作，而 AVDC 和 3DFlowAction 则利用运动场来几何地计算轨迹；VPP 和 LAPA 则直接在压缩的潜在表示中预测未来，以节省计算。Joint WAMs 则把视觉预测和动作生成合并到一个模型中，包括像 GR-1、GR-2 和 WorldVLA 这样的 token 化系统，以及 PAD、UWM 和 DreamZero 这类扩散式方法，它们可以并行生成未来帧和动作。文章还提到 Nvidia 的 Cosmos Policy、DreamDojo 和 π0.7 等系统，它们可以把世界模型输出当作控制器、模拟器，或作为预训练机器人策略的上下文输入。

资讯正文

World Action Models 赋予机器人在移动前模拟后果的能力

要点

- 近期一篇综述论文提出了一个针对“World Action Models”（WAMs）的系统框架，这是一类面向机器人技术的模型，能够利用未标注的日常视频训练 AI 系统。

- 与传统方法不同，WAMs 不只是学习给定一张摄像头图像后应该采取哪种动作，它们还会模拟该动作将如何改变环境，从而实际上在内部构建一个物理世界模型。

- 这篇综述分析的约一百篇论文可归入两大类架构。一类方法先生成预测的未来视频，再从中推导控制指令；另一类则并行处理视觉输入和动作。

当今的机器人 AI 存在一个根本性弱点：模型学习的是将摄像头图像直接映射到运动。但它们并不理解，自己的动作实际上会如何改变世界。

复旦大学、上海创新研究院和新加坡国立大学的一篇新综述论文，首次系统梳理了旨在弥补这一差距的一类模型：World Action Models。

能够模拟自身短期未来的机器人

现有的视觉-语言-动作模型大多只学习把观测直接映射到相应动作。World Action Models 进一步向前推进了一步。它们还会对环境可能如何变化进行建模，然后把这种预测与动作生成结合起来。

作者表示，这样做的回报是实际可用性。一个在执行动作前先模拟动作后果的模型，对陌生物体和陌生场景的泛化能力更强。更重要的是，它可以从没有任何机器人动作标注的视频素材中学习——比如日常第一人称视频。这类数据对传统机器人 AI 几乎毫无用处。

纯视频生成器可以生成看似合理的未来帧，但它们并不与控制信号绑定。北京大学的一个研究团队近期在其对世界模型的统一定义中也明确指出了这一点。World Action Models 则同时满足这两个条件。

两种核心架构

研究人员将约一百篇论文归入两条架构路线。第一类是 Cascaded WAMs，按两个步骤工作。首先，世界模型生成下一时刻场景应呈现出的图像或视频；然后，第二个模块从这一输出中提取正确的控制指令。像 UniPi 这样的早期工作会生成完整视频，并通过一个学习到的逆向模型推导运动。

其他方法，如 AVDC 或 3DFlowAction，则使用运动场，机器人轨迹可以据此通过几何方式计算出来。还有一些方法——例如 VPP 或 LAPA——甚至完全跳过可见图像，而是以压缩的抽象表征来预测未来。这可以节省原本用于逐像素渲染所需的计算资源。

第二条路线，Joint WAMs，将这两项任务合并到一个单一模型中。像 GR-1、GR-2 或 WorldVLA 这样的工作把图像和动作视为一个统一的 token 序列。基于扩散的变体，如 PAD、UWM 或 DreamZero，则并行生成未来帧和运动。Nvidia 的 Cosmos Policy 可以使用同样的架构，既充当控制器，也充当模拟器，或者评估模型。

Nvidia 还通过 DreamDojo 走类似的双重角色路线，这是一种世界模型，它接收控制指令，并据此生成一个模拟的视觉未来。该综述还讨论了 π0.7，它并不是把世界模型当作替代品，而是当作供给源。它将想象中的未来帧输入到一个预训练机器人 AI 的上下文中，然后由后者生成动作。

真正的瓶颈是数据

整整一章都在深入探讨训练数据从何而来。这个领域由四种来源塑造。来自远程控制机器人的遥操作数据虽然精确，但成本高昂，而且只覆盖少数环境。像 Open X-Embodiment 或 DROID 这样的数据集试图通过汇集多个实验室的数据来解决这一问题。可携带的演示工具，如 Universal Manipulation Interface，则绕开了对硬件的依赖：人们在日常环境中使用手持夹爪执行任务。

RDT2 数据集以这种方式收集了大约 10,000 小时的素材。像 RoboCasa 或 RoboTwin 2.0 这样的模拟环境可以提供无限轨迹和完美的深度数据，但它们受到众所周知的仿真到现实鸿沟的困扰。Nvidia 在 GR00T N1 上强力押注这一方向，主要在合成环境中训练人形机器人。

来自 Ego4D 的第一人称日常视频提供了无限多样性，但不包含动作标签。正是在这一点上，World Action Models 展现出优势。它们可以利用这些视频来预测未来帧，即使没有运动数据也能做到这一点。

评估跟不上发展

作者尤其批评这些模型在实际测试中的表现。视觉质量通常用 PSNR 或 FVD 之类的标准指标来衡量，但这些指标并不能说明视频在物理上是否合理。

专门的基准测试会检查物理合理性的不同侧面。VideoPhy 评估物理交互场景。Physics-IQ 测试从视频帧预测真实物理事件的能力。WorldModelBench 则检查诸如重力、质量守恒、刚体力学和不可穿透性等显式规则。

一个尤其尖锐的发现来自“Wow, Where, Val!”基准。它检验生成的视频是否真的能够导出可执行的动作。报告指出，许多视觉上很有说服力的模型在这项测试中的成功率会降到接近零。

因此，视频看起来可以很逼真，但对控制却毫无用处。作者将这称为核心问题：目前没有一种指标能够衡量想象中的未来与实际执行的动作在因果上是否一致。

对 Yann LeCun 的 JEPA 路线的验证

到目前为止，作者表示，还没有受控研究在相同条件下比较这些不同的架构。几乎所有模型都只使用摄像头图像，尽管需要精细接触的任务还需要触觉和力数据。算力仍然是一个瓶颈。DreamZero 每秒大约能进行七次预测；传统机器人控制器则约为每秒五十次。

作者们也提出了一个安全性问题。一个自信地预测错误未来的模型，可能会触发一连串很难停止的行动链。但同样的预测能力，也可以在计划中的动作执行前，先将其与物理规律进行核对。

几个月前，Meta 的 V-JEPA 2 表明，自监督的视频世界模型甚至可以完全跳过生成可见像素，只预测未来的抽象表征。该综述的作者认为，这是一种最有前景的方法之一，既能减少显式视频生成带来的高额算力成本，又不会失去让预测变得有用的物理约束。文中讨论的全部论文列表可在 GitHub 上查看。

来源与参考

收录于 2026-05-18