Decart 发布 Oasis 3 驾驶仿真模型

TechCrunch AI·6月10日 21:07 UTC·作者 Rebecca Bellan

关键信息

Decart 表示，Oasis 3 可以生成多摄像头环境，包括一个前向视角和两个侧向视角，而且开发者可以无限生成场景。该模型按每秒 0.02 美元计费，其高效率来自 Decart 的 DOS 优化栈，公司称这使其运行成本比竞争对手低一个数量级以上。

资讯摘要

AI 初创公司 Decart 发布了 Oasis 3，这是其最新的交互式世界模型，主要用于驾驶仿真，并且从第一天起就通过 API 开放给开发者使用。公司称，该系统可以实时生成照片级真实感的驾驶环境，首批重点面向需要大规模测试罕见场景的自动驾驶开发者。Decart 还计划把这项能力扩展到机器人以及更广泛的物理 AI 应用。公司联合创始人兼 CEO Dean Leitersdorf 表示，他们希望 Oasis 3 成为一个真正可编程、可在其上继续开发的世界模型。Leitersdorf 还提到，Decart 目前已有超过 10 万名开发者在使用其实时视频模型 Lucy，这为 Oasis 3 向物理 AI 延伸提供了基础。

Oasis 3 的收费为每秒 0.02 美元，企业定价则根据具体使用场景而定。Decart 认为，成本优势来自其 DOS 优化栈，该软件可让模型在 Nvidia、Amazon 和 Google 的硬件上高效运行。Leitersdorf 称，正是这种纵向整合让公司在生命周期内烧掉的资金“远少于”1 亿美元。此次发布距离 Decart 以 30 亿美元融资、估值接近 40 亿美元只有几周时间，融资方包括 Toyota、Adobe 和 eBay 等战略投资者，Nvidia 也参与了这一轮。TechCrunch 的实测认为，Oasis 3 在初始场景的照片级真实感方面表现突出，而且可以持续交互数小时，但在长时间驾驶后，环境主题会明显退化，说明它仍然存在现实可用性上的限制。

资讯正文

据 TechCrunch 独家获悉，AI 初创公司 Decart 于周三发布了 Oasis 3——其最新的交互式世界模型，能够实时生成写实级驾驶环境。目前，该模型可通过 API 使用。

这家初创公司最初瞄准的是自动驾驶汽车公司，这些公司需要大规模模拟罕见的驾驶场景，并计划进一步拓展到机器人以及其他物理 AI 应用。但更大的赌注其实在开发者身上：通过从第一天起就提供 API 访问，Decart 正试图围绕世界模型构建一个开发者生态系统，就像 OpenAI 围绕语言模型所做的那样。

Decart 联合创始人兼首席执行官 Dean Leitersdorf 告诉 TechCrunch：“这将是第一个真正可用、而且人们确实可以在其上编程的世界模型。我认为，会有一个完整的开发者社区在此之上逐渐形成。”

这家初创公司已经拥有一个超过 10 万名开发者的社区，其中许多人正在其实时视频模型 Lucy 之上构建产品，主要集中在电子商务和直播领域。Oasis 3 基于这一基础模型构建，代表着公司向物理 AI 的推进。Decart 表示，访问费用为每秒 0.02 美元，企业定价则取决于具体使用场景。

Decart 正在一个日益拥挤的世界模型赛道中竞争。去年，Google 发布了研究预览版 Genie 3；Fei-Fei Li 创办的 World Labs 推出了面向商业用途的 Marble；而像 Luma 和 Runway 这样的生成视频初创公司，也在把其具备物理感知能力的视频模型转化为世界模型。

Oasis 3 的发布，距离这家成立两年的 Decart 完成 3 亿美元融资仅过去几周。Leitersdorf 说，这轮融资是由于公司在电子商务、直播和物理 AI 领域的模型需求“出现了巨大增长”所推动的。这轮融资将 Decart 的估值推高至近 40 亿美元，并引入了丰田、Adobe 和 eBay 等一系列战略投资者。Leitersdorf 表示，这些公司都可能成为客户。现有投资者 Nvidia 也参与了这轮融资。

Oasis 3 的优势在于其模型的照片级真实感以及无限生成能力。其背后部分归功于 Decart 的效率优化技巧，而这又由公司的另一项主要产品——DOS（Decart Optimization Stack）软件提供支持；该软件让模型能够在 Nvidia、Amazon 和 Google 的硬件上高效运行，因此其模型的运行成本远低于竞争对手。

Leitersdorf 说：“这是建立在我们整个实时技术栈之上的，我们把优化一直做到硬件层面。由于我们高度垂直整合，我们能够以比行业内其他任何人低一个数量级以上的成本来运行这些模型。”

据 Leitersdorf 介绍，这家初创公司的模型效率高到其整个公司生命周期内的总烧钱金额“远低于”1 亿美元。

Oasis 3 能够生成物理上准确的多摄像头环境——包括一个前向视角和两个侧向视角——用于系统训练与测试。与仅提供有限演示和研究预览不同，Decart 允许开发者无限生成各种场景，这对自动驾驶开发者而言再合适不过，因为他们希望尽可能多地测试各种边缘案例。

与我试过的其他模型相比，比如 Google 的 Genie 3 或 World Labs 的 Marble，Oasis 3 从单个文本提示生成出的环境是我见过的最逼真的。事实上，你可以与它们互动数小时，这说明它可能比 Decart 的竞争对手更高效。

但让你能够如此长时间地生成一个世界，也意味着模型会明显退化。

在我的测试中，我发现这个系统一开始总能稳定搭建出与提示相符的强开场场景，但当我在世界中继续前进时，主题一致性迅速下降。我让它生成一个清晨的纽约街道，它确实漂亮地做到了。但当我开车前行时，这个环境看起来越来越不像纽约，而更像任何一座西方城市的标准版。

当我试图掉头，沿原路回到最初的路口时，那个路口已经消失，被一个全新的环境所取代。除此之外，控制也不太灵敏，我经常会失去对车辆行驶方向的控制（这一点也是我测试过的其他世界模型共有的缺点）。这种体验与其说像一个连贯的模拟，不如说更像一段梦境般、支离破碎的意识流，很快就变得毫无逻辑。

另一个问题，我在其他世界模型中也见过，就是汽车会直接穿过其他车辆行驶，这意味着模型没有在环境中正确模拟物理规律。Leitersdorf 将此称为“一个我们正在攻克的重大研究问题”，并将其归因于“关于正常驾驶的数据远远多于事故的数据”。

造成这种物理一致性难题的部分原因，源于这种世界模型的基本工作方式。Oasis 3 采用自回归方式，也就是说，它一次生成一帧，并回看自己之前生成的内容来决定下一步生成什么。这是许多世界模型的一个关键架构特征，同时也是计算密集型特征。

为了保持一致性，Leitersdorf 表示，Decart 团队正在努力延长模型的记忆长度。

“我们生成的每一帧大约是 8,000 个 token，”他说。“以每秒几十帧的速度生成——那就是每秒几十万个 token。上下文窗口会很快被填满。我们正在研究如何实现更长上下文，以存储多出数百万个 token，并把记忆压缩成更少的 token。”

Leitersdorf 认为，一致性问题也许会在模型的下一个版本中得到部分解决；新版本将允许用户基于某个环境的视频，而不是一张图像来开始生成世界。他承认，作为一个领域，世界模型仍然处于早期阶段。

尽管如此，这位创始人当前更关注的不是自己技术的局限，而是当开发者开始真正使用它时会发生什么。

“这让我想起了 LLM 早期的日子，当时 OpenAI 为模型发明了 API，”他说，并指出一个开发者社区的兴起，这个社区通过发现并构建新的应用场景，推动了该领域的发展。

“当我们三个月后再聊时，我们会说，‘这里有 100 位开发者，他们都用 Oasis 构建了 100 个不同的应用，而且把我们所有人都惊到了，’”他说。

来源与参考

收录于 2026-06-11