Google 将 Street View 接入 Genie 世界模型

TechCrunch AI·5月20日 01:51 UTC·作者 Rebecca Bellan

关键信息

Google 表示，Street View 数据库覆盖 20 年，包含超过 2800 亿张图片，分布于 110 个国家和七大洲。公司也强调 Genie 仍处于实验阶段：当前结果更像电子游戏画面而非照片级真实，而且模型还不具备物理感知能力，因此因果行为可能不正确。

资讯摘要

Google DeepMind 正在把 Street View 接入 Project Genie，这是一套能够生成多样化交互式环境的通用世界模型。公司在 Google I/O 2026 上公布了这项整合，并表示它的目标是让真实街道和地点的模拟变得更沉浸、更有用。DeepMind 研究科学家 Jack Parker-Holder 说，这项能力对人类用户以及智能体和机器人应用都很有价值。他举例说，系统可以模拟伦敦少见的晴天，或者展示纽约某个街区在雪天的样子。

Google 的 Street View 数据库规模非常大，过去 20 年通过摄像车和穿戴“tracker backpacks”的人员采集而来，累计超过 2800 亿张图片，覆盖 110 个国家和七大洲。Google 还提到，Genie 3 已于去年 8 月以研究预览形式发布，并在今年 1 月向美国 Google AI Ultra 订阅用户开放，已经在为 Waymo 的模拟器提供支持，用来训练自动驾驶汽车应对龙卷风或大象突然出现等极其罕见的事件。加入 Street View 之后，这种模拟可能更适合帮助 Waymo 等系统为更多城市的部署做准备，因为它既能锚定真实地点，也能把视角从车辆切换到人类或机器人。Google 目前先向美国部分 Ultra 用户开放这项功能，接下来几周还会逐步向全球 Ultra 用户推广。

资讯正文

我们都曾在 Google Maps 上打开 Street View，给朋友看我们童年时的家长什么样，或者把那个小人图标拖到巴黎街头，看看自己订的酒店是不是在一个很酷的街区。想象一下，如果你能以一种更沉浸、更互动的方式做到这一点，不仅能真正模拟街道及其周边环境，甚至还能做一些事情，比如调整天气，或者看看它在“明日之后”那种场景下会是什么样子。

这正是 Google 最新集成的目标之一。从今天开始，Google DeepMind 正在把 Street View 与 Project Genie 连接起来，后者是公司通用世界模型，能够生成多样化、可交互的环境。这项新功能在 Google I/O 2026 开发者大会期间发布。

DeepMind 开放式研究团队的研究科学家 Jack Parker-Holder 告诉 TechCrunch：“无论是对 agent [和 robotics] 用例，还是让人类去玩，这都非常强大，而这一直都是 Genie 的核心假设。”

他举了一个例子：一台新机器人被部署到伦敦，而那里几乎看不到太阳。Parker-Holder 说，Genie 可以模拟那些稀少的、太阳照到维多利亚式住宅、反射出光芒的时刻，这样当这种情况真的发生时，光线就不会把机器人吓到。

他接着说：“同时，你也许会说，‘我要去纽约市，但不是这个时候。’‘那里会下雪。我想看看那一街区在雪中是什么样子。’”

Google 通过装有摄像头的汽车以及背着“追踪背包”的个人，已经收集 Street View 数据 20 年了。这家科技巨头已经在 110 个国家和七大洲收集了超过 2800 亿张图像。

Jack 说：“有了 Street View，我们拥有来自世界大量区域的影像。你可以想象，把这一丰富的现实世界信息和数据来源，与模拟世界的能力结合起来，会有多么强大。”

Google 去年 8 月发布了最新的世界模型 Genie 3 的研究预览版，并在 1 月向美国的 Google AI Ultra 订阅用户开放了该工具，允许客户通过文本提示或图像创建交互式游戏世界。其目标是将 Genie 用于教育体验、游戏和机器人训练。

Genie 3 已经在帮助驱动 Waymo 的一款模拟器，用于训练其自动驾驶汽车应对“极其罕见的事件”，比如龙卷风或偶遇大象。把 Street View 数据加入其中，可能有助于 Waymo 为在全球更多城市推出服务做准备。

Waymo 也有自己的模拟器，它正是依靠这套系统扩展到美国 11 座城市，并在其他几座城市测试其 AI 驾驶员。Parker-Holder 说，Genie 的不同之处在于，这些模拟全都是从汽车的视角出发的。Street View 不仅允许模拟一个锚定在真实地点的世界，还能把视角切换到其他类型的 agent，比如人类或机器人。

Google 从今天开始向美国的一部分 Ultra 用户推出 Genie 中的 Street View 功能，并将随着时间推移逐步扩大开放范围。公司表示，全球 Ultra 用户将在接下来的几周内获得访问权限。

研究人员的目标是尽可能让更多人用上这项新能力，DeepMind 的产品经理 Diego Rivas 表示。他提醒说，尤其是 Street View，以及总体上的 Genie，目前仍然只是一个实验，因此在准确性方面还有很多需要改进的地方。

Google 团队向我展示的样本——其中包括我曾经住过的一个街区的水下模拟——结果令人印象深刻，也很容易辨认，但仍然更像电子游戏画质，而不是照片级真实感。这些模型也还没有具备物理感知能力，也就是说，它们还不理解因果关系。比如，在一个模拟一名女子穿过雪中的 Joshua Tree 的场景里，她直接穿过了仙人掌和灌木丛。

把这和 Google 的图像生成器 Nano Banana 比一比——它现在已经可以在信息图中生成完美的文字——或者和它的视频生成器 Veo 比一比——它理解纸船会随水流漂动，烟雾会在空气中扩散，而织物会垂落在物体表面。

物理规律并不是硬编码进这些模型里的；它们像生物一样，通过长期被动观察，凭直觉学会这些规律。

Parker-Holder 说：“我认为对于这类模型来说，它在准确性和质量上可能比视频落后六到十二个月，所以我觉得这是我们会解决的问题。”

Google Maps 主管 Jonathan Herbert 说，12 年前他还是实习生时加入了 Street View 团队，他表示 Genie 目前还无法创建一条街道的忠实还原。他认为真正的突破在于 AI 的空间连续性。如果你旋转 360 度，AI 能正确记住并模拟你身后的环境。从那一刻起，模型就可以在此基础上构建一个新环境。

Herbert 说：“我们长期以来一直在思考，如何在 Street View 数据之上构建出世界的最佳、最丰富模型。长期以来，我们当然一直有这样一个想法：以新的方式、用于新的 AI 研究，来利用 Maps 数据。”

来源与参考

收录于 2026-05-20