GRASP：用于长时程世界模型的梯度规划方法

BAIR Blog·4月20日 17:00 UTC·作者 C.K. Wolfe

关键信息

GRASP 引入虚拟状态以实现跨时间步的并行优化，直接在状态迭代中加入随机性以增强探索能力，并重塑梯度以确保动作信号清晰，同时避免高维潜在空间中的梯度脆弱问题。

资讯摘要

GRASP 是一种专为学习型世界模型设计的新规划器，这类模型能根据当前状态和动作预测未来观测。与传统方法因优化条件不良和局部极小值而难以进行长时间规划不同，GRASP 通过将轨迹映射到虚拟状态实现并行计算、在状态更新中引入随机性以增强探索能力，并重塑梯度使动作获得稳定且有意义的信号，即使模型使用图像等高维视觉输入也能保持鲁棒性。

该方法已在 BallNav 和 Push-T 等真实机器人任务中得到验证，相比之前的方法有显著改进。这项工作标志着让世界模型成为自主系统长期决策实用工具的重要一步。

来源与参考

收录于 2026-04-21