研究人员定义世界模型，排除文本到视频生成器

The Decoder·4月12日 20:09 UTC·作者 Jonathan Kemper

关键信息

该定义要求三个核心能力：环境感知、与环境互动以及长期记忆。文本到视频模型因缺乏真实世界的反馈回路而被排除在外。OpenWorldLib支持交互式视频生成、多模态推理和视觉语言动作规划等任务。

资讯摘要

一个国际研究团队提出了一个清晰且标准化的AI‘世界模型’定义——即必须能够感知、与环境互动并记住信息的系统。该定义明确排除了Sora和谷歌Veo等从文本生成视频的模型，因为它们缺乏与现实世界的反馈回路。研究人员指出，真正的世界模型应基于物理互动实现预测和行动，而非仅输出图像。

为支持这一理念，他们发布了OpenWorldLib开源框架，整合了输入处理、合成、推理、3D重建和记忆五大模块。这些模块旨在统一多种任务，如机器人控制、多模态推理和基于模拟器的测试。论文强调，当前的生成模型尽管令人印象深刻，但由于缺乏具身性和交互性，仍无法构成完整的世界模型。

资讯正文

研究人员定义了什么是世界模型，而文本到视频生成器并不符合标准

关键要点

- 一个国际研究团队提出了一种新框架，用于明确AI领域中‘世界模型’的定义，旨在解决此前该术语含义模糊的问题。

- 根据这一定义，世界模型必须能够感知环境、与环境互动并具备记忆能力，因此像Sora这样的文本到视频模型被明确排除在外，因为它们缺乏与现实世界的反馈回路。

- 该团队还发布了OpenWorldLib开源项目，整合了输入处理、合成、推理、3D重建和记忆五个模块，以支持世界模型的开发与评估。

一个国际研究团队希望通过OpenWorldLib为碎片化的世界模型研究带来秩序。像Sora这样的文本到视频模型被明确排除在他们的定义之外。

在AI研究中，“世界模型”这个术语频繁出现，但至今没有人就其确切含义达成共识。来自北京大学、快手科技（Kling视频生成器的开发公司）、新加坡国立大学、清华大学等机构的团队希望借助OpenWorldLib解决这个问题。他们的论文不仅提出了标准化定义，还构建了一个统一的开源框架，将各种世界模型任务集中在一起。

研究人员认为，一个真正意义上的世界模型必须建立在感知基础上，能够与环境互动，并拥有长期记忆能力，从而理解并预测复杂世界的行为。世界模型通过接收来自真实世界的多模态输入，利用这些信息分析和响应周围环境，无论其输出形式如何。

为什么Sora不符合世界模型的标准

论文中最具争议的观点涉及文本到视频生成技术。当OpenAI发布已停用的Sora视频模型时，许多人称其为“世界模拟器”。DeepMind首席执行官德米斯·哈萨比斯也曾对谷歌的Veo视频模型做出类似表述，将其视为迈向世界模型的重要一步。

作者明确反对这种说法，立场与杨立昆（Yann LeCun）一致：虽然视频生成展示了对物理关系的部分理解，但它缺少与现实世界的必要反馈回路。仅从文本生成视频的模型无法感知环境，也无法与其互动。因此，论文指出，文本到视频生成“不属于世界模型的核心任务”。

研究人员还将代码生成、网络搜索和虚拟人物视频生成排除在定义之外。例如，虚拟人物视频主要用于娱乐目的，与理解物理世界关系不大。

真正的世界模型需要交互，而非被动生成

研究人员聚焦于三个任务领域，而非被动的内容生成：

- 在交互式视频生成中，模型根据先前帧和用户输入预测下一帧画面。与文本到视频不同，它能对控制命令或摄像机移动等操作作出反应。

多模态推理涵盖了从图像、视频和音频中推断空间、时间和因果关系的能力，例如理解物体的位置或某件事发生的原因。

在视觉-语言-动作领域，模型会将视觉输入和语音指令转换为机械臂或自动驾驶车辆的具体运动命令。

研究人员还将3D重建和模拟器视为关键构建模块。这些模块提供了一个可测试的环境，在其中可以严格实施物理规则。相比之下，单纯的视频预测仅是对未来的视觉猜测，并不能保证物理一致性。

五个模块构成一个完整流程

OpenWorldLib软件项目以模块化方式整合了这些能力。操作模块将各种输入（文本、图像、传感器数据）转换为标准化格式；合成模块生成图像、视频、音频和控制指令；推理模块处理空间、视觉和声学上下文；表示模块构建3D重建和仿真环境；记忆模块存储交互序列，使系统在多个步骤中保持一致性。

顶层流程协调所有模块，并提供标准化接口。这样研究人员就能在统一框架内比较不同模型和方法，而无需每次都搭建定制化基础设施。

Hunyuan-WorldPlay和Cosmos在早期基准测试中表现领先

研究人员使用Nvidia的A800和H200 GPU进行评估，将现有模型纳入其框架中对比。Hunyuan-WorldPlay在导航场景的交互式视频生成中取得了最高的视觉质量。

Nvidia的Cosmos则在需要处理广泛用户输入的复杂交互场景中表现最佳。较早的方法如Matrix-Game-2虽然速度更快，但在长序列中出现了明显的色彩偏移。

VGGT和InfiniteVGGT等模型在3D场景重建方面表现出明显不足。显著的摄像机移动会导致几何不一致性和模糊纹理。尽管如此，研究人员仍认为3D生成是未来世界模型不可或缺的一部分。

当前芯片设计可能正在阻碍世界模型的发展

作者还批评了当前硬件，指出现有芯片与世界模型的需求存在根本性不匹配。现代处理器专为处理单个标记而设计，因此即使模型需要预测整个视频帧，数据仍会在内部逐标记计算。在研究人员看来，这对现实世界模型所需的高数据量感知任务来说效率极低。他们认为需要新的芯片架构，甚至可能要摆脱目前几乎支撑所有大型AI模型的Transformer结构。

作为一项实用的权宜之计，作者指出当前的视觉-语言模型（如Bagel）可以作为一个例子，它基于Qwen架构同时处理多模态推理和图像生成。在他们看来，这表明仅用互联网数据预训练的语言模型原则上已具备所有必要的能力——尽管构建一个完整的世界模型仍遥遥无期。OpenWorldLib项目已在GitHub上开源。

AI新闻去 hype 版本 – 由人类精选

订阅 THE DECODER 可获得无广告阅读体验、每周AI简报、每年六次独家“AI雷达”前沿报告、完整档案访问权限以及评论区访问权限。

来源与参考

收录于 2026-04-13