Naver的首尔世界模型利用真实街景数据减少AI幻觉

The Decoder·3月29日 14:46 UTC·作者 Jonathan Kemper

关键信息

该模型使用跨时间配对技术区分永久结构（如建筑）与临时物体（如汽车和行人），并通过‘虚拟前瞻锚点’维持长距离一致性，参考未来街景图像作为锚点。它还利用CARLA模拟器生成的合成视频填补视角缺失。

资讯摘要

Naver的首尔世界模型（SWM）通过使用真实的街景数据而非虚构环境，在AI世界建模领域迈出了重要一步。该模型基于120万张来自Naver地图的全景图像进行训练，通过跨时间配对技术区分静态元素（如建筑）与动态元素（如车辆）。为了应对覆盖稀疏和视角受限的问题，它整合了来自Unreal Engine模拟器CARLA的12700段合成视频。

模型通过‘虚拟前瞻机制’保持长时间的一致性，参考未来的街道级图像作为无误差地标。在基准测试中，SWM在真实性和连贯性方面超越了六种竞争模型，并显著地推广到了釜山和安娜堡等城市而无需微调——标志着迈向可扩展、可信的物理空间AI模拟的关键一步。

资讯正文

Naver的“首尔世界模型”利用真实的街景数据防止AI虚构整个城市

要点

- 韩国互联网公司Naver推出了首尔世界模型（SWM），这是一种基于真实城市几何结构生成位置相关视频的视频世界模型，该模型源自其自身120万张街景图像。

- 该模型通过分析不同时段拍摄的记录，学会区分永久性结构（如建筑物）与临时物体，并利用模拟视频填补缺失的摄像机视角，同时使用沿路线更远的街景图像作为视觉锚点，以保持长时间距离的一致性。

- 在基准测试中，SWM在视觉质量和时间一致性方面均优于六种现有的视频世界模型，并且无需额外训练即可成功推广到釜山和安阿伯等陌生城市。

韩国互联网巨头Naver构建了一个基于超过一百万张自有街景图像实际城市几何结构的视频世界模型。该模型无需微调即可推广至其他城市。

此前的视频世界模型虽然能生成视觉上令人信服但完全虚构的环境——从起始图像看不到的街道、远处的建筑都是凭空想象出来的。Naver及Naver Cloud的研究人员采取了根本不同的方法：他们的首尔世界模型（SWM）将视频生成锚定在真实城市的几何结构和外观之上。

根据研究报告，这是首个与真实物理地点绑定的世界模型。Naver常被称为“韩国谷歌”，运营着韩国主导的搜索引擎以及自家的地图服务Naver Map，其街景全景图与Google Maps类似。该模型直接从这一数据池中提取信息。

用户输入地理坐标、期望的摄像机运动和文本提示后，模型会搜索包含120万张全景图像的Naver Map数据库，检索最近的街景图像，并将其作为逐步生成视频的指南。

真实街景数据带来三大独特挑战

使用真实图像会引入纯合成世界模型不会遇到的问题。最大的问题在于：街景图像是快照。拍摄时捕捉到的车辆和行人与模型需要生成的动态场景毫无关系。如果不加处理，模型会简单地把参考图像中的随机物体复制进生成的视频中。

研究人员通过“跨时间配对”机制解决这个问题：在训练过程中，他们故意将来自不同拍摄时段的参考图像与目标序列组合在一起。这教会模型区分永久性结构（如建筑立面）和临时物体（如停放的汽车）。在消融实验中，这一机制被证明是效果最显著的单一组件。

此外，街景摄像头安装在车辆上，每5到20米才拍摄一张图像。这意味着没有连续视频，也没有行人视角或空中视角的图像。为了填补这一空白，研究人员在Unreal Engine模拟器CARLA中生成了12,700段合成视频，摄像机路径覆盖了行人、车辆和自由飞行视角。他们还开发了一个流程，从空间分散的单张图像中插值生成时间上连贯的训练视频。

最后，由于模型是分段生成视频的，小误差会在长距离累积。以前的方法使用第一张图像作为固定锚点，但一旦摄像头行驶数百米后，这种锚点就变得无用。

SWM（Seoul World Model）用一个“虚拟前瞻终点”替代了静态锚点：对于每个新片段，模型会检索路线稍前方的一张街景图像，并将其作为虚拟目的地插入。这为模型提供了一个随摄像头移动且无误差的地标。

深度图与原始图像协同工作

检索到的街景图像通过两条互补路径进入生成过程。首先，模型利用深度信息将空间上接近的参考图像投影到目标视角，从而提供场景的空间布局。

其次，参考图像不会直接以原始像素形式输入Transformer模型。相反，它们会先被编码为潜在表示，并作为语义参考整合进来。这使模型能够从环境中提取额外的外观细节。根据研究人员的说法，如果去掉这两条路径中的任意一条，质量都会显著下降。

SWM基于Nvidia的Cosmos-Predict2.5-2B扩散Transformer构建，该模型拥有20亿参数。研究人员使用440,000张首尔街景图像、合成的CARLA数据以及公开可用的Waymo驾驶数据，在24块Nvidia H100 GPU上训练了该模型。

SWM能泛化到从未训练过的城市

研究人员在首尔测试了SWM，也测试了釜山和美国安阿伯市——这两个城市均未出现在训练数据中。根据论文所述，SWM在视觉质量、相机保真度、时间一致性以及与真实地点的对应关系等方面优于六种当前视频世界模型，包括Aether、DeepVerse和HY-World1.5，在包含30个测试序列（每段约100米）的定制基准上表现优异。

现有模型在更长距离上越来越漂移，导致视频模糊甚至完全崩溃。而SWM能在数百米范围内保持输出稳定。尽管有严格的时空锚定机制，该模型仍能响应文本提示：用户可以改变天气、一天中的时间或添加假设场景，同时底层城市布局保持不变。

缺失的视频数据仍然限制预测质量

由于整个城市的连续视频记录无法免费获取，训练依赖于从单张图像插值得到的序列，其质量远不如真实视频。元数据中错误的时间戳偶尔也会导致生成视频中车辆突然出现或消失。

韩国Naver公司的“首尔世界模型”利用真实的街景数据，防止AI虚构整个城市。

研究人员表示，所有街景数据的处理均符合隐私法规，在训练前已对人脸和车牌进行了匿名化处理。他们指出，该模型在城市规划、自动驾驶和基于位置的探索等领域具有潜在应用价值。

世界模型目前是人工智能领域最活跃的研究方向之一。Runway最近发布了其首个通用世界模型GWM-1，该模型能够构建环境的内部表征，并实时模拟未来事件。谷歌DeepMind首席执行官德米斯·哈萨比斯认为，这类模型是迈向通用人工智能的关键一步。此外，微软研究院与多家美国大学的一项最新研究也表明，大型语言模型可以充当世界模型，在预测环境状况方面准确率超过99%。

来源与参考

收录于 2026-03-30