人形机器人正通过人类动作数据进行训练

MIT Technology Review AI·4月22日 04:45 UTC·作者 James O'Donnell

关键信息

数据收集方式包括零工人员拍摄日常任务、中国穿戴外骨骼的用户重复执行相同动作，以及配备传感器的送货员记录其移动轨迹。挑战在于如何高效地扩展这种数据收集，并将其转化为机器人可用的运动指令。

资讯摘要

机器人研究人员现在开始转向人类动作数据——通过应用程序、远程控制机械臂和可穿戴设备收集——作为人形机器人新的训练材料。受大型语言模型成功的启发，他们认为捕捉人类完成日常任务（如微波加热食物或擦桌子）的方式，可以帮助机器人更自然地学习。早期努力包括学术实验室记录简单动作，但随着2025年针对人形机器人的风险投资达到61亿美元，这项工作已大幅扩展。

尼日利亚、印度和阿根廷的零工人员拍摄自己做家务；中国的一些人则穿戴外骨骼重复执行数百次相同任务。尽管潜在回报巨大，但尚不清楚是否能以所需规模收集此类数据，或者是否能够将这些视频转化为有用的机器人行为。

资讯正文

我最近被邀请加入一个应用程序，它会用加密货币支付我，让我拍摄自己完成一些任务的视频，比如把食物放进碗里、用微波炉加热，然后再拿出来。另一个网站建议我尝试一款新游戏，在游戏中我可以远程操控位于中国深圳的一台机械臂，完成拼图和各种任务，以帮助提升机器人的灵巧度。

这到底发生了什么？正如我们的文字成为了大型语言模型的训练数据一样，机器人公司正在押注于人类动作的数据，认为这将有助于他们打造更强大的人形机器人。他们认为，尽管人形机器人比简单的机械臂更难训练，但它们更容易融入人类当前工作的场所，甚至在未来完全取代人类。

这种训练人形机器人的新思路，可以说始于2022年ChatGPT的发布。大型语言模型通过接触海量训练数据生成文本——也就是AI公司能找到（或有人认为是窃取）的每一段文字。机器人研究人员希望将类似的扩展规律应用到机器人领域，但他们缺乏一个像互联网那样规模的数据集来描述人类如何移动。

由于收集这类数据难度极大，企业曾采用权宜之计，比如在虚拟仿真环境中教机器人移动。然而，仿真永远无法完美模拟现实世界中摩擦力或弹性等物理特性，因此在仿真中训练的机器人往往会（字面意义上地）跌倒。

如今，开发人形机器人的公司决定，即便收集真实世界的动作数据非常繁琐，也可能带来巨大的回报。而这正是事情变得奇怪的地方。

早期的努力还比较朴素且学术化：实验室会收集人们做日常家务任务时的大量数据，比如翻煎饼或整理办公桌，并佩戴摄像头或手持夹具记录；这些数据是公开共享的。但随着风险投资资金涌入机器人领域——仅2025年用于人形机器人的投资就达61亿美元——创建此类训练数据的竞争日趋激烈，也越来越复杂。

现在在中国，已经出现了专门的培训中心，人们穿戴外骨骼和虚拟现实设备，每天重复数百次同样的单调任务，比如擦桌子。尼日利亚、阿根廷和印度的零工劳动者则在家拍摄自己做家务的视频。今年早些时候，我了解到一家美国的快递公司为员工配备了传感器，用来追踪他们在搬运箱子时的动作，部分目的是研究工伤情况，同时也为了训练能替代他们的机器人。

这一切都指向一个荒诞的未来：体力劳动者越来越成为数据采集者。但在我们收集的运动数据基础上训练机器人仍是一个复杂的课题。尚不清楚是否真的能在所需规模上实现这一目标，更别说从中获得技术突破，或是建立一个盈利的商业模式了。

我打开微波炉的那一段视频，究竟价值几何？需要成千上万这样的瞬间，才能教会机器人做一顿晚饭吗？也许今年我们就能找到答案。

深度报道

OpenAI正全力以赴打造全自动研究员

人形机器人数据

与OpenAI首席科学家雅库布·帕霍茨基的独家对话，探讨该公司最新的重大挑战以及人工智能的未来。

《精灵宝可梦GO》如何为配送机器人提供精准的世界视角

独家报道：Niantic的人工智能子公司正在利用玩家贡献的300亿张城市地标图像，训练一种新的世界模型。

保持联系

获取来自《麻省理工科技评论》的最新更新

发现特别优惠、热门故事、即将举行的活动等内容。

来源与参考

收录于 2026-04-22