Mirage为视频生成加入持久空间记忆

The Decoder·6月14日 21:58 UTC·作者 Jonathan Kemper

关键信息

Mirage 避开了 Voyager、WonderWorld 和 Spatia 等系统常用的像素空间中转，而是把扩散模型的内部特征保存在持久的三维缓存里。它在写回记忆之前会过滤掉移动物体和天空，研究者还基于阿里巴巴的 Wan2.2 构建了该系统，并通过一个小型适配模块和 LoRA 微调完成训练。

资讯摘要

Mirage 是微软研究院与多所大学研究者提出的一种新视频世界模型，目标是在长镜头轨迹下保持生成场景的一致性。它要解决的核心问题是“空间遗忘”：当镜头回到已经经过的位置时，现有视频生成器往往会把那里重建得不一样，导致物体、表面或纹理发生漂移。此前的 Voyager、WonderWorld 和 Spatia 等方法通常依赖带颜色信息的三维点云，但论文认为这会形成“双重瓶颈”，因为模型既要先渲染点云，又要把结果重新编码回特征空间。Mirage 则把扩散模型已经使用的图像特征直接存入空间记忆，并为每个特征分配三维位置。生成新视角时，模型会把这份记忆直接投影到目标相机，再交给生成器使用，从而绕开了“渲染再重编码”的昂贵流程。

系统按片段工作：先用起始图像种下记忆，再生成下一段帧，随后把新内容写回缓存。为了让长期记忆更稳定，系统在写回之前会去掉移动物体和天空，只保留更可信的静态几何信息。研究者基于阿里巴巴开源的视频模型 Wan2.2 构建了该方法，先加上一个小型模块来教模型使用新记忆，再用 LoRA 进行整体微调。在评测中，Mirage 在 WorldScore 基准上超过了最接近的颜色型记忆方法 Spatia，并在 RealEstate10K 的闭环测试中拿下了三项指标中的两项；这种测试要求镜头回到起点，因此对误差累积非常敏感。报道强调，Mirage 的主要优势是效率：每帧计算成本在首段之后几乎不再明显增长，整体速度最高可提升 10.57 倍，内存占用最高可减少 55 倍。

资讯正文

Microsoft Research 的 Mirage 为视频生成提供了持久的空间记忆，不会忘记拐角处有什么

要点

- Mirage 是微软研究院和几所大学提出的一种新视频世界模型，即使在长时间的摄像机运动中，也能保持生成场景的空间结构一致。

- 该系统不再绕行到昂贵的像素级 3D 点云，而是直接在其内部潜在空间中的空间记忆里存储图像特征。

- 与同类模型相比，Mirage 的视频生成速度最高可快 10.5 倍，内存占用最高可减少 55 倍。移动物体仍会被从记忆中滤除。

Mirage 是一种新的视频世界模型，它跳过了通过像素级记忆进行的高成本绕行。这一做法既提升了生成速度，也让场景的空间结构在长时间摄像机移动中保持稳定。该项目由来自几所大学的研究人员与 Microsoft Research 共同完成。

视频世界模型会把起始帧和摄像机路径转换为看似合理的动态图像，这在模拟或作为世界模拟器时很有用。但如果没有某种记忆，即便是很强的生成器，随着时间推移也会失去对空间的把握。你已经经过的房间角落，在镜头转回来时看起来会不一样；家具会移动，纹理也会改变。

Voyager、WonderWorld 和 Spatia 等系统试图通过 3D 点云来解决这一问题，并向其中输入持续流入的颜色数据。每一步新的生成都必须先渲染该点云，然后再把结果转换回模型内部的特征空间。微软的新论文称这构成了“双重瓶颈”：它会消耗算力，而且每次数据经过像素空间时，信息都会发生流失。

Mirage 采取了不同的方法。它不保留可见的颜色点，而是直接存储扩散模型已经使用的内部图像特征。每个特征都会在 3D 空间中占据一个位置，从而成为空间记忆中的一个条目。

为了生成新的视角，模型会把这一存储直接投影到目标摄像机上，并将结果交给生成器，跳过了渲染点云并重新编码的步骤。作者表示，这也大幅降低了内存使用，因为数据存放在模型紧凑的内部分辨率中，而不是完整图像尺寸下。

记忆如何随着每一步增长

Mirage 以分段方式构建视频，从起始图像中初始化空间记忆。对于后续每个片段，系统会从记忆中提取相关数据，生成新帧，然后把这些内容写回缓存。随着生成推进，记忆也会不断增长。

在写入之前，系统会通过一个过滤器去除移动物体和天空，避免自身“绊住自己”，这样只有稳定的几何结构会进入长期记忆。研究人员基于阿里巴巴开源视频模型 Wan2.2 构建了这一系统，为其加装了一个小型附加模块，用于教模型使用新的记忆机制，然后再用 LoRA 适配器对整个系统进行微调。

比基于颜色的竞品更快、更轻

在 WorldScore 基准测试中，Mirage 击败了最接近的竞争对手 Spatia，后者仍然将记忆保留为颜色点，同时也将通用视频生成器如 Wan2.1 和 CogVideoX 远远甩在身后。它在保持场景空间结构完整，以及让多个帧中的表面外观保持一致方面表现出色。

在 RealEstate10K 数据集的闭环测试中，它在三项指标中的两项上也处于领先。这里摄像机会绕回起点，这是一个残酷的压力测试，因为每一个微小误差都会在整个路径上不断累积。

效率是 Mirage 最强的优点。基于颜色的记忆在更长的运行过程中扩展性很差，并且会持续消耗更多图形内存。Mirage 的每帧计算成本在第一个片段之后几乎不再上升。研究人员给出的总体收益是：生成速度最高可提升 10.57 倍，所需内存比基于颜色的系统最多减少 55 倍。

他们也坦率指出了一个限制。由于移动物体的几何形状无法被信任，在分段边界处它们会被丢弃，过滤器也会刻意把它们筛掉。与安静的室内场景相比，繁忙场景从空间记忆中获得的收益更小。团队认为，将动态内容存储下来是显而易见的下一个待解决问题。

你可以在项目页面上找到关于 Mirage 的更多信息。微软还为 Latent Spatial Memory 维护了一个 GitHub 仓库。

视频世界模型是当下 AI 视频领域最热门的研究方向之一。像 Veo 这样的模型主要生成单个、内部一致的片段，而世界模型则试图让场景可被导航，并在时间上保持一致。Google DeepMind 最近用 Genie 3 展示了这一点，它能够实时生成交互式环境，并将其维持数分钟。在 I/O 大会上，Google 还将 Gemini Omni 定位为一种世界模型，以及其文本转视频模型 Veo 的潜在继任者。

来源与参考

收录于 2026-06-15