Mirage为视频生成加入持久空间记忆

The Decoder··作者 Jonathan Kemper

关键信息

Mirage 避开了 Voyager、WonderWorld 和 Spatia 等系统常用的像素空间中转,而是把扩散模型的内部特征保存在持久的三维缓存里。它在写回记忆之前会过滤掉移动物体和天空,研究者还基于阿里巴巴的 Wan2.2 构建了该系统,并通过一个小型适配模块和 LoRA 微调完成训练。

资讯摘要

Mirage 是微软研究院与多所大学研究者提出的一种新视频世界模型,目标是在长镜头轨迹下保持生成场景的一致性。它要解决的核心问题是“空间遗忘”:当镜头回到已经经过的位置时,现有视频生成器往往会把那里重建得不一样,导致物体、表面或纹理发生漂移。此前的 Voyager、WonderWorld 和 Spatia 等方法通常依赖带颜色信息的三维点云,但论文认为这会形成“双重瓶颈”,因为模型既要先渲染点云,又要把结果重新编码回特征空间。Mirage 则把扩散模型已经使用的图像特征直接存入空间记忆,并为每个特征分配三维位置。生成新视角时,模型会把这份记忆直接投影到目标相机,再交给生成器使用,从而绕开了“渲染再重编码”的昂贵流程。

系统按片段工作:先用起始图像种下记忆,再生成下一段帧,随后把新内容写回缓存。为了让长期记忆更稳定,系统在写回之前会去掉移动物体和天空,只保留更可信的静态几何信息。研究者基于阿里巴巴开源的视频模型 Wan2.2 构建了该方法,先加上一个小型模块来教模型使用新记忆,再用 LoRA 进行整体微调。在评测中,Mirage 在 WorldScore 基准上超过了最接近的颜色型记忆方法 Spatia,并在 RealEstate10K 的闭环测试中拿下了三项指标中的两项;这种测试要求镜头回到起点,因此对误差累积非常敏感。报道强调,Mirage 的主要优势是效率:每帧计算成本在首段之后几乎不再明显增长,整体速度最高可提升 10.57 倍,内存占用最高可减少 55 倍。

Mirage为视频生成加入持久空间记忆

资讯正文

Microsoft Research 的 Mirage 为视频生成提供了持久的空间记忆,不会忘记拐角处有什么

要点

- Mirage 是微软研究院和几所大学提出的一种新视频世界模型,即使在长时间的摄像机运动中,也能保持生成场景的空间结构一致。

- 该系统不再绕行到昂贵的像素级 3D 点云,而是直接在其内部潜在空间中的空间记忆里存储图像特征。

- 与同类模型相比,Mirage 的视频生成速度最高可快 10.5 倍,内存占用最高可减少 55 倍。移动物体仍会被从记忆中滤除。

Mirage 是一种新的视频世界模型,它跳过了通过像素级记忆进行的高成本绕行。这一做法既提升了生成速度,也让场景的空间结构在长时间摄像机移动中保持稳定。该项目由来自几所大学的研究人员与 Microsoft Research 共同完成。

视频世界模型会把起始帧和摄像机路径转换为看似合理的动态图像,这在模拟或作为世界模拟器时很有用。但如果没有某种记忆,即便是很强的生成器,随着时间推移也会失去对空间的把握。你已经经过的房间角落,在镜头转回来时看起来会不一样;家具会移动,纹理也会改变。

Voyager、WonderWorld 和 Spatia 等系统试图通过 3D 点云来解决这一问题,并向其中输入持续流入的颜色数据。每一步新的生成都必须先渲染该点云,然后再把结果转换回模型内部的特征空间。微软的新论文称这构成了“双重瓶颈”:它会消耗算力,而且每次数据经过像素空间时,信息都会发生流失。

Mirage 采取了不同的方法。它不保留可见的颜色点,而是直接存储扩散模型已经使用的内部图像特征。每个特征都会在 3D 空间中占据一个位置,从而成为空间记忆中的一个条目。

为了生成新的视角,模型会把这一存储直接投影到目标摄像机上,并将结果交给生成器,跳过了渲染点云并重新编码的步骤。作者表示,这也大幅降低了内存使用,因为数据存放在模型紧凑的内部分辨率中,而不是完整图像尺寸下。

记忆如何随着每一步增长

Mirage 以分段方式构建视频,从起始图像中初始化空间记忆。对于后续每个片段,系统会从记忆中提取相关数据,生成新帧,然后把这些内容写回缓存。随着生成推进,记忆也会不断增长。

在写入之前,系统会通过一个过滤器去除移动物体和天空,避免自身“绊住自己”,这样只有稳定的几何结构会进入长期记忆。研究人员基于阿里巴巴开源视频模型 Wan2.2 构建了这一系统,为其加装了一个小型附加模块,用于教模型使用新的记忆机制,然后再用 LoRA 适配器对整个系统进行微调。

比基于颜色的竞品更快、更轻

在 WorldScore 基准测试中,Mirage 击败了最接近的竞争对手 Spatia,后者仍然将记忆保留为颜色点,同时也将通用视频生成器如 Wan2.1 和 CogVideoX 远远甩在身后。它在保持场景空间结构完整,以及让多个帧中的表面外观保持一致方面表现出色。

在 RealEstate10K 数据集的闭环测试中,它在三项指标中的两项上也处于领先。这里摄像机会绕回起点,这是一个残酷的压力测试,因为每一个微小误差都会在整个路径上不断累积。

效率是 Mirage 最强的优点。基于颜色的记忆在更长的运行过程中扩展性很差,并且会持续消耗更多图形内存。Mirage 的每帧计算成本在第一个片段之后几乎不再上升。研究人员给出的总体收益是:生成速度最高可提升 10.57 倍,所需内存比基于颜色的系统最多减少 55 倍。

他们也坦率指出了一个限制。由于移动物体的几何形状无法被信任,在分段边界处它们会被丢弃,过滤器也会刻意把它们筛掉。与安静的室内场景相比,繁忙场景从空间记忆中获得的收益更小。团队认为,将动态内容存储下来是显而易见的下一个待解决问题。

你可以在项目页面上找到关于 Mirage 的更多信息。微软还为 Latent Spatial Memory 维护了一个 GitHub 仓库。

视频世界模型是当下 AI 视频领域最热门的研究方向之一。像 Veo 这样的模型主要生成单个、内部一致的片段,而世界模型则试图让场景可被导航,并在时间上保持一致。Google DeepMind 最近用 Genie 3 展示了这一点,它能够实时生成交互式环境,并将其维持数分钟。在 I/O 大会上,Google 还将 Gemini Omni 定位为一种世界模型,以及其文本转视频模型 Veo 的潜在继任者。

来源与参考

  1. 原始链接
  2. Microsoft Research's Mirage gives video generation a persistent spatial memory that doesn't forget what's around the corner

收录于 2026-06-15