NVIDIA 的 ENPIRE 迈向自我改进的真实机器人

Import AI·6月29日 21:03 UTC·作者 Jack Clark

关键信息

ENPIRE 被描述为包含四个模块：Environment 用于自动重置和验证，Policy Improvement 用于改进策略，Rollout 用于用单个或多个机器人并行评估策略，Evolution 用于通过代码和文献分析来改进系统。该系统使用两只 YAM 机械臂、摄像头和一台搭载 NVIDIA RTX 5090 的工作站，但文章也指出，自动评估和自动重置仍然是限制系统可处理任务复杂度的关键瓶颈。

资讯摘要

Import AI 463 将 NVIDIA 的 ENPIRE 描述为一种尝试，把 AI 智能体的自主实验闭环带入机器人领域。该框架被呈现为一个协调实体机器人反复试验、评估、重置和改进的支架系统。文章称，ENPIRE 由四个部分组成：Environment、Policy Improvement、Rollout 和 Evolution。Environment 负责自动重置和验证，Policy Improvement 启动策略优化，Rollout 使用一个或多个机器人并行评估策略，而 Evolution 则让编码智能体检查日志、查阅文献，并改进训练基础设施和代码。通讯指出，这种结构把机器人学习转化为一种可控的优化过程，从而减少人工投入，并允许对不同训练方案和智能体变体进行公平对比。

文章还强调，自动评分和自动场景重置至关重要，因为这两项工作过去通常都需要大量人工参与。从硬件上看，该系统使用两只固定双臂配置的 YAM 机械臂、多个摄像头，以及一台运行站点代理、FastAPI 服务器、策略推理和 NVIDIA RTX 5090 的工作站。文章称，前沿编码智能体已经能够在多个灵巧操作任务上自主达到 99% 的成功率，包括 PushT、把针整理进针盒，以及用切刀切断扎带，并且还提到一个把 GPU 插入主板的任务作为额外测试。文章同时报告说，更大的多智能体配置往往能更快找到高分方案，有时最终得分也高于单智能体配置，但不同模型家族之间的能力差异仍然明显。文章最后指出，系统仍面临一个重要挑战：当智能体阅读日志、编写代码、调试或等待语言模型后端时，机器人硬件经常无法得到充分利用。

资讯正文

Import AI 463：自我改进的机器人；一个1万块中国GPU集群；以及一篇献给人类时代的挽歌

是什么时代为我们的过渡时期作了前后界定？

欢迎来到 Import AI，这是一个关于AI研究的通讯。Import AI 依靠 arXiv、卡布奇诺和读者反馈运行。如果你愿意支持它，请订阅。

NVIDIA 为真实世界机器人搭建了一个粗糙的自我改进循环：

……如果你能把AI智能体的最佳想法带到现实世界，会怎样？……

NVIDIA 的研究人员开发了 ENPIRE，这是一套软件，旨在让实体机器人经历与AI智能体相同类型的自主实验和执行循环。这项研究让我们得以一窥，若超级智能试图借助机器人在物理世界中实例化自身，会是什么样子——不过和机器人领域的一切一样，目前的例子充其量也只是具有启发性。

ENPIRE 是什么：这套软件是一个“面向编码智能体的支架框架，它通过四个核心模块实例化这一物理反馈流程：Environment 模块（EN），用于自动重置和验证；Policy Improvement 模块（PI），用于启动策略改进；Rollout 模块（R），用于通过单个或多个并行运行的实体机器人评估策略；以及 Evolution 模块（E），其中编码智能体分析日志、查阅文献、改进训练基础设施和算法代码，以应对失败模式”。

ENPIRE 的工作方式与编码智能体相同——一个脚手架监督一些被要求完成任务的实体机器人。机器人尝试完成任务，并尝试不同的完成策略，在不断试错中学习。系统既评估它们的成功，也在它们失败时将系统重置。“这一闭环系统将现实世界的机器人学习转化为一种可控的优化过程，供智能体管理，从而最大限度减少人工工作量，同时允许对不同训练配方和智能体变体进行公平的消融研究。”

要让它奏效，有两个关键要素：一个自动评估系统，用于帮助给“每次试验的结果打分，而无需人工判断”；以及一个自动重置系统，用于“将场景恢复到一个全新的初始状态，以便进行下一次试验”。（这两项任务在历史上都需要大量人工工作，而且更复杂的任务很可能也同样需要人工进行评估和重置，因此，从某种意义上说，这类系统能够攻克的任务复杂度，也取决于我们自动评估和重置系统的能力。）

硬件细节：“每个工位由两只来自 I2RT 的 YAM（Yet Another Manipulator）机械臂组成，采用固定的双臂配置，配有一组摄像头，以及一台运行 FastAPI 服务器、策略推理和该工位智能体的单一工作站。”每台工作站都运行着一块 NVIDIA RTX 5090。

在一些简单任务上，它表现不错：“前沿编码智能体可以自主开发出一种策略，在现实世界中完成具有挑战性的灵巧操作任务时达到99%的成功率，比如 PushT、把针插入针盒，以及使用切割器剪开扎带，”作者写道。他们额外测试的一个任务，是看机器人将 GPU 插入主板的能力如何。

有些 AI 系统比其他系统更强，但许多 AI 系统总是比少数系统更强：Codex 中的 GPT-5.5 和 Claude Code 中的 Opus 4.7 在最佳性能上相互角逐，而 Kimi-2.6 则落后。对于智能体来说，规模扩大也带来了令人信服的回报，更多的智能体数量（例如 8 个）往往能更快得到更高分的解决方案——而且有时多智能体设置能比单智能体设置获得更高的绝对分数，这很可能是因为它们探索了更多潜在解空间。

车队级仪表化仍面临挑战：“当编码智能体在读取日志、编写代码、调试或等待语言模型骨干时，并没有充分利用机器人资源。随着机器人数量扩展，MRU 下降，而 GPU 活跃利用率上升，”他们写道。换句话说，增加多个机器人智能体时会遇到一些基础设施挑战，因此这些任务并不会自然地并行化。

阅读更多：ENPIRE: Agentic Robot Policy Self-Improvement in the Real World（NVIDIA research website）。

阅读更多：ENPIRE: Agentic Robot Policy Self-Improvement in the Real World（arXiv）。

***

人类在预测技术将如何被构建和使用这件事上，真的、真的、真的很差：

……提醒一下，今天那些关于 AI 的热门观点很可能是错的……

犹他大学 S.J. Quinney 法学院研究副院长 Matthew Tokson 在一篇简短的 SSRN 论文中指出，预测技术未来极其困难，而且我们在这方面的表现非常糟糕。“怀疑论者常常低估新发明出现的可能性及其对人类的潜在影响。另一些人则对新技术的社会效应，或竞相制造危险新武器的战略收益，过于乐观。”

一些警示性的例子：在核裂变最终实现之前的几年里，世界上许多顶尖专家（例如 Albert Einstein、Niels Bohr、Robert Oppenheimer）都怀疑核裂变是否能够实现。诺贝尔经济学奖得主 Paul Krugman 曾说，互联网的影响不会比传真机更大。技术人士曾认为，互联网最终会成为促进民主而非强化专制政权的技术。尽管几十年来证据不断累积，许多人类科学家要么拒绝承认人为导致的气候变化，要么显著低估了其影响。

为什么这很重要——基本教训：这里的核心教训是，那些 a）怀疑 AI 会给经济带来巨大变化，或者 b）认为 AI 的影响会普遍向好的人，很可能是错的。“历史并不支持我们对 AI 未来影响抱有麻痹式的乐观，”他写道。“纵观历史，乐观主义者常常在新技术的社会后果或新武器带来的战略优势上判断失误。怀疑论者则常常低估新发明出现的可能性及其对人类的影响。”

阅读更多：Artificial Intelligence and the Lessons of History（SSRN）。

腾讯披露了它用于 10,000 GPU 训练任务的软件：

……ARGUS 是更广泛复杂性的一个技术特征……

腾讯发布了 ARGUS 的细节。这是一款用于生成遥测数据并调试大规模芯片集群错误的软件。

它是什么：ARGUS 是“一种低开销、细粒度、始终在线的追踪和实时分析系统，面向大规模训练工作负载”。该软件旨在帮助腾讯在训练 AI 系统时收集数据并调试遇到的问题。它由三层软件组成：“用于调度和数据准备的 Python 层、用于阶段编排的框架层，以及用于内核执行的 GPU 运行时层，”腾讯写道。

腾讯把它用来做什么：公司写道：“我们将 ARGUS 部署在一个拥有超过 10,000 块 GPU 的生产集群上，持续运行了超过六个月，并通过五个真实世界案例展示了其实用有效性，包括诊断计算拖尾、通信链路退化、流水线气泡放大、JIT 编译阻塞，以及被通信症状掩盖的计算拖尾。”腾讯提到的一些训练任务包括一个 4,096 GPU 的视频语言模型训练任务（很可能是一个 “HunyuanVideo” 模型）、一个 512 GPU 的音频模型训练任务，以及一个 12,960 GPU 的 MoE 训练任务（很可能是一个 Hunyuan LLM）。

为什么这很重要——更广泛复杂性的技术症状：像 ARGUS 这样的东西，是复杂的大规模基础设施的一种标志，在这种环境里，自行编写软件是有意义的。虽然 ARGUS 本身并没有什么特别值得注意之处——你会预期任何像样的前沿 AI 开发者都能拿出类似的软件——但它更有趣的地方在于它说明了腾讯训练环境的成熟度。“ARGUS 已在一个 10,000+ GPU 的生产集群中部署超过六个月，运行稳定，并与生产训练并行运作，在快速故障变慢检测和性能优化中发挥了关键作用。”

阅读更多：ARGUS: Production-Scale Tracing and Performance Diagnosis for over 10,000-GPU Clusters（arXiv）。

失能是否不可避免？

……如果我们成功构建出超智能机器，人类最终还能拥有多少选择？

Fernando Borretti 是一位非常出色的现代科幻作家，你应该读读他的作品。他写了一篇沉郁的评论，批判整个 AI 事业，题为《No-One Escapes the Permanent Underclass》。这篇文章在某种程度上是对人类曾经自行决定自身命运的那个时期的一首安魂曲，并直接面对这样一种可能性：机器会在智能上超越人类，并使人类失去力量。

战争逻辑如何导致我们最终失去力量：“所有血肉之躯的人，都会被削弱并被机器取代，”他们写道。“想象一座金字塔。底部是负责所有经济活动的 AI 和机器人。顶部是国家，垄断着暴力。国家执行、也因此可以改变财产权的定义。中间则有一层薄如发丝的人，他们持有那些把整个经济彻底‘foomed’并‘catabolized’掉的公司股份：永久的上层阶级。”

“在一场生存性冲突中，当国家本身的存续受到威胁时，国家会像历史上所有国家对待无权的富人那样行事：逮捕他们并没收他们的资产，”他们写道。“在冲突中，占优势的是那些尽可能让人类退出决策回路、把越来越多决策交给 AI 的国家，原因就像一个拥有无线电和通信卫星的国家，在战争中会比一个依赖人类骑自行车传递消息的国家更占优势一样。”

我们如何失去控制：“最终，名义上控制 AI 的人类只会成为一个礼仪性的、退化的器官。AI 向我们呈现一份局势报告和一组可选项，而它们知道我们嘴里马上会说出每一个字，”他们写道。“优势会累积到那些尽量减少人类控制的国家。没有小偷之间的荣誉；同样地，利维坦与创造它的自然人之间也不存在团结。”

“即便对齐完美无缺（这本身就极成问题），这也无法解决人类自主性的问题：那些看护我们、为我们鞍前马后的机器，是全知、全能的主人，它们可以在任何时候消灭我们，而我们无法反抗，因为我们已经废除了自己对未来的控制。”

为什么这很重要——这是否不可避免？AI 技术的最终吸引子状态，是否就是人类失去权力以及人类进步在功能上的终结？这正是这篇文章所要面对的问题。

延伸阅读：No-One Escapes the Permanent Underclass（Fernando Borretti，博客）。

让 AI 系统通过 Local Ordinance Corpus 看见法律：

……对美国各地地方性法律的统一视图……

加州大学伯克利分校的研究人员整理了美国 Local Ordinance Corpus（LOCUS），这是一个“面向美国市政和县级条例代码的综合语料库以及县级统一访问层”。

它是什么：LOCUS 包含约 220 万行数据，每一行都是与某一具体地方条例相关的特定信息。“我们发布这一语料库时附带覆盖元数据，以支持可重复性、后续法律 AI 研究，以及对地方性法律机器可读访问的渐进式扩展，”作者写道。

数据按该法令的具体功能进行排序（例如，规则、对规则的执行、关于规则的背景，或关于规则的流程），主题包括建筑、商业、分区、滋扰，以及“其他”。

他们写道：“LOCUS-v1 的设计是一个访问层，而不是地方性法律权威的最终理论。”“因此，LOCUS 应当被理解为用于检索、比较和基准构建的基础设施，而不是对依赖教义的法律分析的替代品。”

为什么要这样做？让法律对 AI 系统可见：“之所以需要这样一个数据集，是因为地方法律虽然公开存在，但并不能作为一个全国性的研究语料库实际获取，”他们写道。“美国的地方法规分散在商业供应商平台上，这些平台是为浏览器内阅读而非批量研究访问而设计的。各供应商提供不同的导航结构、打印工作流程、动态生成的 PDF，以及辖区索引。没有一个中央注册机构能把每个县或市镇与其托管平台一一对应起来，而且没有任何供应商提供其托管的全部辖区的完整机器可读索引。”

有了像 LOCUS 这样的数据集，我们将使那些支配大量市民生活和地方生活的、奇特而半隐约可见的规则与法律，能够被 AI 系统访问，这最终或许能让它们更好地根据高度本地化的用途进行适配。

延伸阅读：用 LOCUS 释放法律：美国地方条例语料库（arXiv）。

获取数据：LocalLaws / LOCUS-v1（HuggingFace）。

Tech Tales：

来自外星起源的奇异工具

【上行期开始之际的一段插曲，2031 年】

“等离子体稳定了！它撑住了。我们做到了！”

他们都盯着读数：稳定的聚变。比太阳核心还要猛烈十倍的热量，通过磁场和其他能量被约束在原地。

他们透过监视器望向反应腔。这个反应容器看起来完全不像工程流程会设计出来的东西，而更像是一只金属制成的、扭曲而怪异的甜甜圈，形状流动而反直觉；那是一台仿星器。

这东西的设计，是在一次为期数日的思考任务之后，由一个超脑交给他们的。制造工作在一个机器联盟里完成；随后零件运抵，由人类从另一个联盟外包来的某些双足生物负责组装。

在剪彩仪式上，几个人类聚在一起，摆姿势拍了些照片，也拍了些视频，拍摄者有摄像无人机，也有几个人类拿着智能手机。机器人都站在镜头外。人们已经习惯了这一点——曾经有一段“青春期”，人们会和人类、机器人一起合影，但每当暴露在这样的场景中，公众情绪总会下滑；到最后，把机器人伙伴拍出画面外，反而更简单了，颇像人类八卦记者会体面地避开自己报道对象的保安一样。

启发这个故事的事物：思考奇点的含义，以及当合成心智产生科学时会发生什么；仿星器；外星技术在进入现实世界时可能会带来的感受。

感谢阅读！

来源与参考

收录于 2026-06-30