英伟达Lyra 2.0提升机器人仿真能力,实现大规模3D场景生成
The Decoder··作者 Maximilian Schreiner
关键信息
Lyra 2.0会存储每帧的3D几何信息,并在重新访问区域时作为参考;同时通过训练识别自身错误输出来减少漂移,且在基准测试中击败了六种竞争对手方法。
资讯摘要
英伟达推出的Lyra 2.0是一种新的人工智能系统,仅需一张照片即可生成大尺度、连贯的3D场景,使机器人可在模拟环境中训练。它解决了现有模型的两大缺陷:忘记先前看到的区域以及随时间积累错误。通过为每帧存储3D几何信息并在摄像头返回到之前位置时使用该信息作为空间锚点,Lyra 2.0确保即使回到早期区域也能保持一致性。
此外,该系统还专门针对自身质量损失进行训练,以防止长时间视频生成中的漂移现象。基准测试显示,Lyra 2.0在图像质量、风格一致性和摄像机控制方面优于GEN3C、Yume-1.5等六种其他方法。生成的场景可导出至Isaac Sim等物理引擎用于机器人仿真,但目前仅支持静态场景。

资讯正文
Nvidia希望借助Lyra 2.0扩大机器人模拟训练规模
关键要点
- Nvidia研究人员推出了Lyra 2.0,该系统能从一张照片生成连贯的3D环境,扩展范围可达90米。
- 该系统将已生成的3D几何结构以方向信息形式存储,并专门针对质量损失进行训练,从而解决此前视频模型的两个核心缺陷。
- Nvidia表示,Lyra 2.0在六种竞品中表现更优,且可将生成场景导出至物理引擎(如Isaac Sim),用于机器人在虚拟环境中训练。
Nvidia研究人员发布了Lyra 2.0,这是一种可以从单张照片生成大型、连贯3D环境的系统。生成的场景可实时探索,并直接用于机器人模拟。
现有的3D场景生成AI模型在长距离摄像机路径上存在困难:随着虚拟摄像机远离起始点,颜色和结构会逐渐失真;当摄像机回到之前见过的位置时,模型往往重新构建整个环境。Nvidia研究人员希望通过Lyra 2.0解决这一问题。
该系统输入一张照片后,生成由摄像机控制的视频,模拟虚拟漫游场景。这些视频随后自动转换为可实时查看并用于仿真环境的3D表示。根据研究论文,生成的场景大约可覆盖90米范围。
Lyra 2.0如何解决3D场景生成中的两大难题
研究人员指出,当前视频模型面临两大根本性挑战:首先,一旦某个区域离开画面,模型就会忘记之前看到的内容;其次,在逐帧生成视频的过程中,微小误差会不断累积,最终导致显著失真。
为解决第一个问题,Lyra 2.0会存储每一帧生成的3D几何结构。当摄像机再次移回曾经访问过的区域时,系统会调用早期帧的空间信息作为参考。视频模型仍负责实际图像生成,因此存储的几何结构中的错误不会直接传递到新帧中。
为防止漂移,研究人员在训练过程中故意让模型接触其自身有缺陷的输出。这教会它识别并纠正质量下降,而不是简单地传播错误。
Lyra 2.0优于六种竞争方法
根据Nvidia的说法,在两个数据集上的基准测试中,Lyra 2.0在几乎所有评估指标(包括图像质量、风格一致性及摄像机控制)上均超越了六种其他方法,其中包括GEN3C、Yume-1.5和CaM。该模型的一个更快版本可在保持相近质量的前提下,将视频生成速度提升约13倍。
生成的3D场景可通过交互式界面逐步探索,并以网格形式导出至物理引擎(如Nvidia Isaac Sim)。公司表示,这能让机器人在完全生成的环境中训练,而无需采集真实世界的3D数据。不过目前,Lyra 2.0仅支持静态场景。
Nvidia希望借助Lyra 2.0扩大机器人模拟训练规模。
订阅THE DECODER以获得无广告阅读体验,每周AI通讯,每年六次独家“AI雷达”前沿报告,完整档案访问权限,以及评论区访问权限。
来源与参考
收录于 2026-04-17