英伟达以 Cosmos 3 和 Alpamayo 2 Super 扩展物理 AI

The Decoder··作者 Maximilian Schreiner

关键信息

Cosmos 3 采用混合 Transformer 架构,其中一个 Transformer 负责场景推理,另一个负责生成视频、描述或运动轨迹。Alpamayo 2 Super 拥有 320 亿参数,新增了变道、停车、让行等元动作输出,并提供用于文档和审查的文本因果链。

资讯摘要

英伟达在 GTC 台北发布了一组面向“物理 AI”的新产品,覆盖机器人、自动驾驶和视频系统。此次发布的核心包括 Cosmos 3、Alpamayo 2 Super,以及一个开放的人形机器人参考平台。Cosmos 3 是英伟达下一代开放式 omnimodel,能够在一个系统中处理文本、图像、视频、环境音频和动作数据。英伟达表示,开发者可以用它生成合成训练数据、理解场景,并预测未来的世界状态,而不必在现实世界中费力复现那些罕见情况。它被描述为三种用途:作为视觉语言模型,用于交通异常检测等任务;作为世界模型,用于生成近失误、仓库异常摆放等罕见事件的写实视频;以及作为世界动作模型,输出机器人学习抓取、放置等任务所需的运动数据。其架构采用混合 Transformer 方案,一个 Transformer 负责对场景进行推理,另一个 Transformer 根据推理结果生成视频、描述或轨迹。

英伟达称,该模型使用了跨文本、图像、视频、音频和动作数据的数十亿级样本训练,并将以 OpenMDW-1.1 许可在 Hugging Face 和 GitHub 上发布。此次发布还伴随着 Cosmos Coalition 合作伙伴联盟,其中包括 Black Forest Labs、Runway、LTX、Generalist、Agile Robots 和 Skild AI,该联盟以英伟达的 DGX Cloud 训练基础设施为基础,并通过交换模型和数据展开合作。与此同时,英伟达推出了 Alpamayo 2 Super,这是其面向 L4 级自动驾驶的开放模型系列中的高端版本,参数规模达到 320 亿。该模型新增了元动作输出、文本形式的因果链说明,并被英伟达定位为给部署在 Drive AGX Thor 上的小模型提供蒸馏的教师模型。英伟达还发布了用于仿真中闭环强化学习的 AlpaGym,以及用于稀有交通场景生成的 OmniDreams。最后,文章提到英伟达还展示了一个基于 Unitree 底盘的开放人形机器人参考平台,但原文截断,未给出完整细节。

英伟达以 Cosmos 3 和 Alpamayo 2 Super 扩展物理 AI

来源与参考

  1. 原始链接
  2. Nvidia bets big on physical AI at GTC Taipei with a new world model, driving brain, and open humanoid robot

收录于 2026-06-02