Generalist的GEN-1人工智能在物理任务中达到99%可靠性

Ars Technica AI·4月7日 06:18 UTC·作者 Kyle Orland

关键信息

GEN-1利用可穿戴“数据手”收集的超过50万小时的人类交互数据进行训练，从而学习精细动作技能。它只需一小时即可适配特定机器人本体，并且比前代GEN-0快约三倍。

资讯摘要

Generalist的GEN-1是物理机器人领域的一项突破，其在多种精细任务中实现了99%的可靠性，这些任务此前需要人类灵巧操作。与依赖固定程序或单一任务训练的早期模型不同，GEN-1能在遇到意外干扰时自主调整——例如摇晃袋子让玩具滑入，或重新抓取移动的小零件。

该系统使用通过可穿戴传感器收集的海量真实世界交互数据进行训练，并可在不到一小时内适配新的机器人本体。这标志着真正通用型自主机器人的重大进步，能够应对不可预测的环境。

资讯正文

机器人机器学习公司Generalist宣布推出GEN-1，这是一种新的物理AI系统，该公司称其在“一系列需要人类手部灵巧和肌肉记忆的物理技能”上达到了“可投入生产的成功率”。Generalist还强调了该模型应对突发情况的能力——能够即兴发挥新动作，并“从不同领域中联系想法以解决新问题”。

GEN-1基于Generalist此前推出的GEN-0模型，后者在去年11月被公司称为机器人训练中扩展规律适用性的概念验证，展示了更多预训练数据和计算时间如何提升训练后的性能。然而，尽管大型语言模型能有效处理互联网上集体撰写的万亿词汇作为训练内容，机器人模型却没有类似且易于获取的高质量人类操作物体的数据来源。

为了解决这个问题，Generalist采用了“数据手套”——一套穿戴式夹具，能够在人类执行手工任务时捕捉微小动作和视觉信息。Generalist现在声称已收集超过50万小时、以及“拍字节级别的物理交互数据”，用于训练其物理模型。

结果是一个足够精确的自主系统，可以将钱放入钱包；也足够灵活，能折叠衣物或分类汽车零件。据Generalist表示，该模型在重复但精细的机械任务（如折叠盒子、包装手机和维修扫地机器人）上达到了99%的成功率，速度约为前代GEN-0模型的三倍。根据公司说法，GEN-1仅需约一小时适应特定机器人形态的“机器人数据”，即可达到这些水平。

从错误中恢复

过去，复杂的机器人系统通常依赖精心编排的动作序列，或者被训练专注于单一任务且变化极少。Generalist表示，GEN-1的独特之处在于，单个模型能够基于以往经验即兴发挥，并自然响应干扰，即使这些干扰“远超训练分布范围”。

例如，在接受《福布斯》采访时，Generalist工程师描述了模型通过轻轻摇晃塑料袋，让毛绒玩具滑入其中的情景，而这一动作并未在训练数据中明确编程。Generalist发布的一段视频还展示了机器人手在柔性物体偏离预期位置时智能调整，或是在折叠衬衫过程中中途移动衣物后重新折叠的过程。Generalist还提到，当小垫圈被意外移位时，模型会用双手重新抓取并将其放回指定位置。

“没人教机器人犯错，因此也没人教它从错误中恢复，”Generalist工程师Felix Wang在视频中说道，“但这恰恰是免费发生的。”

通用模型并非唯一一家致力于将机器学习技术引入物理世界的公司。去年，谷歌展示了其Gemini机器人模型的‘视觉学习行动’能力，这些模型能够理解并响应人类发出的一般性指令。而Physical Intelligence则凭借安装在轮式平台上的机械手引起了广泛关注，这些机械手在专门设计的模拟家庭环境中训练，可以完成从清理洒落物到整理床铺等各种任务。

此外还有特斯拉，该公司于2024年底首次推出人形Optimus机器人，但早期展示的演示实际上是由远程人类操作员操控的。今年1月，特斯拉CEO埃隆·马斯克承认，目前的Optimus机器人在特斯拉工厂内仍未能执行‘有用的工作’，尽管此前曾做出相反的声明。

不过，通用模型表示，其GEN-1物理模型已达到类似GPT-3的转折点：某些任务开始‘达到可在经济上有用场景中部署所需的性能水平’，并且‘我们可以预期每一代新模型都将带来一组越来越复杂的、可被掌握的新任务’。这让我们对未来有望在不久的将来实现一款价格实惠、能在家自动折叠衣物的机器人充满希望。

来源与参考

收录于 2026-04-08