世界模型：人工智能的下一个前沿

MIT Technology Review AI·4月22日 04:45 UTC·作者 Grace Huckins

关键信息

与仅预测文本序列的大语言模型不同，世界模型通过视频、传感器数据和图像学习物理环境的内部模拟，从而能预测推杯子等动作的结果。

资讯摘要

人工智能已经掌握了编程和写作等数字任务，但在折叠衣物或穿越街道等物理任务上仍面临挑战。世界模型旨在通过创建对物理世界运作方式的内部表征——包括物理规律、几何结构和因果关系——来解决这一问题。杨立昆、李飞飞以及DeepMind和OpenAI等机构的最新努力突显了其潜力，可实现更强大、具身化的AI。

当前大语言模型的一个关键局限是面对意外变化（如导航中的绕行）时极易失效，而真正的世界模型则能保持一致性。Niantic甚至利用Pokémon Go玩家提供的300亿张城市图像训练世界模型，以指导配送机器人。这些模型最初可能用于虚拟现实和游戏设计，但它们真正的价值在于融入能够适应复杂环境并做出决策的智能体中。

资讯正文

人工智能系统已经在数字世界中取得了令人印象深刻的成就，但物理世界仍然是人类的领域。事实上，构建一个能创作小说或编写应用程序的AI系统，远比开发一个能叠衣服或在城市街道上导航的AI系统要容易得多。许多研究人员相信，要实现这一目标，需要一种被称为‘世界模型’的技术。

世界模型并不是一个新概念，但最近来自谷歌DeepMind和斯坦福大学教授李飞飞的World Labs，以及杨立昆（Yann LeCun）从Meta离职并创办专注于世界模型的初创公司等进展，使这一概念成为人工智能讨论的焦点。OpenAI也加入了这一行列，将原本用于已关闭的Sora视频应用的资源重新分配给‘长期世界模拟研究’。李飞飞和杨立昆等支持者认为，世界模型将帮助研究人员克服大型语言模型（LLM）众所周知的局限性，并推动人工智能在机器人领域的潜力实现。

对‘世界模型’的定义各不相同，但它们都围绕智能系统如何表征外部世界展开。一些科学家认为，人类使用自身的心智世界模型来导航周围环境并指导行动；我们的大脑以足够高的保真度模拟环境，从而让我们能够有效预测如果把杯子推到桌子边缘会发生什么，或者告诉朋友真实想法时会看到什么——这些预测帮助我们决定下一步该做什么。

大型语言模型似乎已经做得不错了——它们当然能告诉你把杯子从桌子上敲下来会发生什么。但研究表明，它们对世界的‘理解’是脆弱的。一项研究发现，经过模拟纽约市出租车行程数据库训练的语言模型可以提供从曼哈顿一点到另一点的有效导航路线，但如果被迫偶尔绕路，它就会完全失效。这类结果及其他类似实验表明，具备世界模型的AI系统（例如一张准确的纽约市心智地图）可能比我们习惯的那些不可靠的大型语言模型更加稳健和可靠。

许多研究人员认为，世界模型将是未来机器人技术的关键。World Labs创始人李飞飞曾撰文指出，它们有助于开发探索深海、协助医疗人员的机器人，但目前的应用还较为基础。例如，《精灵宝可梦GO》的开发者正在利用数以十亿计由玩家收集的图像，构建首个世界模型组件，他们希望这能帮助引导配送机器人。

世界模型

Google DeepMind 和 World Labs 正在集中精力构建能够从文本、图像，以及在 World Labs 的情况下还包括视频提示中生成交互式三维虚拟环境的模型。这类工具可用于简化电子游戏和沉浸式虚拟现实体验的设计，但与大型语言模型相比，它们的应用范围似乎较为有限。真正的突破可能来自于将这些系统整合进灵活且智能的代理（agents）中，这些代理能够表征其环境、预测自身行为的后果，并据此决定下一步行动。

深度解析

OpenAI 正全力以赴打造全自动研究者

独家专访 OpenAI 首席科学家 Jakub Pachocki，探讨该公司新的重大挑战及人工智能的未来。

Pokémon Go 正为配送机器人提供精确到厘米的世界视角

独家报道：Niantic 的人工智能衍生公司正利用来自玩家的三十亿张城市地标图像，训练一种新型世界模型。

来源与参考

收录于 2026-04-22