AI代理自动化机器人训练硬件任务

Ars Technica AI··作者 Jeremy Hsu

关键信息

ENPIRE 包含自动重置与验证、策略优化、多机器人评估,以及通过日志分析、读取论文和改进代码来处理失败等模块。该系统测试了 OpenAI 的 Codex with GPT-5.5、Anthropic 的 Claude Code with Opus 4.7、以及 Moonshot AI 的 Kimi Code with Kimi K2.6,而且在部分任务上,规模更大的八代理团队比小团队更快达到成功。

资讯摘要

这篇报道讲的是一种新的用法:把 AI 编码代理变成自主的机器人训练员,而不是让人类逐轮手动监督实验。研究人员构建了 ENPIRE,这是一个代理框架,它把 AI 模型包裹起来,并提供工具、记忆、约束、反馈循环以及管理机器人训练流程的能力。该系统由 NVIDIA GEAR 研究人员与卡内基梅隆大学、加州大学伯克利分校的合作者共同开发。Jim Fan 表示,实验室现在可以在夜间自我改进,并称团队计划开源这项工作,让其他人也能搭建自己的“自运行机器人实验室”。

研究中测试了多种编码代理,包括带有 GPT-5.5 的 Codex、带有 Opus 4.7 的 Claude Code,以及 Kimi Code with Kimi K2.6。代理们在多轮循环中提出训练修改、在真实机器人上运行实验、保留有效改动并丢弃无效方案。结果显示,它们在 Push-T、整理插针、剪断扎带、以及将 GPU 插入主板插槽等操作任务上表现很强。部分情况下,这种由 AI 驱动的流程甚至追平或超过了人类参与的训练方法,但研究人员也指出一个重要问题:当代理忙于读日志、写代码、调试或等待模型响应时,机器人常常处于闲置状态。

AI代理自动化机器人训练硬件任务

资讯正文

当你给 AI 编程代理一个装满机械臂的实验室、一些算力资源,以及用于教机器人完成各种任务的“充足 token 预算”时,会发生什么?这些代理显然能够找出一套训练方案,让机器人成功剪断扎带,甚至把 GPU 插入主板上的狭缝插槽中。

这一窥见 AI 如何以完全自主的方式自动化机器人训练的能力,是借助一种新的 agent harness 框架实现的——这种软件会包裹在 AI 模型外层,使其能够使用各种工具,同时还提供记忆、上下文、约束和反馈循环等能力。这个名为 ENPIRE 的 agentic harness 由 Nvidia GEAR(Generalist Embodied Agent Research,通用具身智能体研究)实验室的机器人研究人员与卡内基梅隆大学匹兹堡分校以及加州大学伯克利分校的合作者共同开发。

NVIDIA AI 负责人 Jim Fan 在 LinkedIn 帖子中写道:“我们 NVIDIA GEAR 实验室的一部分现在会在夜里不知疲倦地自我改进。”他说,“我们早上只要读报告就行了。”

Fan 还半开玩笑地描述了这种由 AI 主导的机器人训练目标,说:“我们都去度假,Jensen 甚至都不会发现。”这里指的是 Nvidia 创始人兼首席执行官 Jensen Huang。不过受益者并不只有 Nvidia 的机器人研究人员——Fan 表示,团队会把所有内容开源,这样任何人都能在家里搭建自己的“自运行机器人实验室”。

ENPIRE harness 包含四个模块,使 AI 编程代理能够对任务执行自动重置和验证、完善引导机器人行为的策略、在多个并行工作的实体机器人之间评估这些策略,并通过分析日志、吸收研究论文以及改进训练基础设施和算法代码来应对失败。更多技术细节可参见于 2026 年 6 月 16 日上传的研究论文。

该 harness 已在三种不同的 AI 编程代理上进行了测试,包括使用 GPT-5.5 的 OpenAI Codex、使用 Opus 4.7 的 Anthropic Claude Code,以及使用 Kimi K2.6 的 Moonshot AI Kimi Code。各组编程代理分别开发了不同的机器人训练算法方法,在真实世界实验中进行测试,然后保留那些在多轮自主测试中有助于提高总体成功率的改动。

AI 主导机器人训练的成功与局限

借助 ENPIRE,这些 AI 编程代理为机器人自我改进开发出的策略,在多项操作任务中实现了 99% 的成功率,其中包括标准的“Push-T”任务——该任务要求机器人将一个 T 形积木移动到桌面上目标位置。其他任务还包括在针盒中整理针、系紧并剪断扎带,以及把 GPU 放入主板,然后再拔下显卡,以便为下一次试验重置。

最有希望的结果或许来自针插入和整理任务。在这一机器人训练场景中,AI 编程代理比许多同样参与研究的人类研究人员开发的“前沿的人类在环方法”更快地达到了接近 100% 的成功率。

这些实验还表明,规模更大的团队——最多由八个 AI 编码代理组成——能够比四个代理的小团队或单独工作的单个代理,更快地在机器人训练中取得高成功率。例如,八代理团队在两小时的研究时间内就在 Push-T 任务上取得了 99% 的成功率;相比之下,四代理团队需要三小时,单代理团队则需要将近五小时。

但人类研究人员也发现,当把 AI 编码代理作为自主机器人训练师来放手使用时,它们存在一些关键局限。机器人常常处于空闲和未被使用的状态,而编码代理却忙着“阅读日志、编写代码、调试,或者等待语言模型骨干”。更大的编码代理团队还会花更多时间总结彼此的想法,而把更少的时间真正用于操控机器人;在启动并行训练会话时,编码代理有时也无法充分利用可用的算力资源。

通过更多代理和机器人协同工作所带来的更快成功率,也伴随着更高的 token 消耗——在 Anthropic 等 AI 开发者正在权衡定价调整、并且这些调整将显著增加使用 AI 服务时与 token 相关成本的当下,这一点尤为值得注意。

随着 AI 热潮带来资金充裕,Nvidia 一直忙于通过多项机器人项目推进其“物理 AI”愿景。5 月 31 日,该公司宣布与知名中国机器人公司宇树科技(Unitree)建立合作,为开发通用 AI 驱动机器人的研究实验室提供一款“参考人形机器人”。

在 6 月初对韩国的一次旋风式访问中,Nvidia 创始人兼首席执行官黄仁勋还会见了现代汽车执行董事长郑义宣,讨论如何扩大 AI 驱动机器人的量产。现代汽车集团拥有美国机器人公司波士顿动力(Boston Dynamics),后者已因其四足“机器狗”Spot 而广为人知,并一直在推进其 Atlas 人形机器人的商业化。

来源与参考

  1. 原始链接
  2. AI coding agents taught robots how to install GPUs and cut zip ties
  3. Nvidia research shows robots that train themselves through AI coding agents

收录于 2026-06-18