英伟达以 Cosmos 3 和 Alpamayo 2 Super 扩展物理 AI

The Decoder·6月1日 21:26 UTC·作者 Maximilian Schreiner

关键信息

Cosmos 3 采用混合 Transformer 架构，其中一个 Transformer 负责场景推理，另一个负责生成视频、描述或运动轨迹。Alpamayo 2 Super 拥有 320 亿参数，新增了变道、停车、让行等元动作输出，并提供用于文档和审查的文本因果链。

资讯摘要

英伟达在 GTC 台北发布了一组面向“物理 AI”的新产品，覆盖机器人、自动驾驶和视频系统。此次发布的核心包括 Cosmos 3、Alpamayo 2 Super，以及一个开放的人形机器人参考平台。Cosmos 3 是英伟达下一代开放式 omnimodel，能够在一个系统中处理文本、图像、视频、环境音频和动作数据。英伟达表示，开发者可以用它生成合成训练数据、理解场景，并预测未来的世界状态，而不必在现实世界中费力复现那些罕见情况。它被描述为三种用途：作为视觉语言模型，用于交通异常检测等任务；作为世界模型，用于生成近失误、仓库异常摆放等罕见事件的写实视频；以及作为世界动作模型，输出机器人学习抓取、放置等任务所需的运动数据。其架构采用混合 Transformer 方案，一个 Transformer 负责对场景进行推理，另一个 Transformer 根据推理结果生成视频、描述或轨迹。

英伟达称，该模型使用了跨文本、图像、视频、音频和动作数据的数十亿级样本训练，并将以 OpenMDW-1.1 许可在 Hugging Face 和 GitHub 上发布。此次发布还伴随着 Cosmos Coalition 合作伙伴联盟，其中包括 Black Forest Labs、Runway、LTX、Generalist、Agile Robots 和 Skild AI，该联盟以英伟达的 DGX Cloud 训练基础设施为基础，并通过交换模型和数据展开合作。与此同时，英伟达推出了 Alpamayo 2 Super，这是其面向 L4 级自动驾驶的开放模型系列中的高端版本，参数规模达到 320 亿。该模型新增了元动作输出、文本形式的因果链说明，并被英伟达定位为给部署在 Drive AGX Thor 上的小模型提供蒸馏的教师模型。英伟达还发布了用于仿真中闭环强化学习的 AlpaGym，以及用于稀有交通场景生成的 OmniDreams。最后，文章提到英伟达还展示了一个基于 Unitree 底盘的开放人形机器人参考平台，但原文截断，未给出完整细节。

英伟达以 Cosmos 3 和 Alpamayo 2 Super 扩展物理 AI

来源与参考

收录于 2026-06-02