机器人如何学习:一段简短的当代史

MIT Technology Review AI··作者 James O'Donnell

关键信息

突破来自于在模拟环境中使用强化学习和大型语言模型,这些模型能从传感器数据和视觉输入中预测机器人的动作,从而实现更灵活和通用的行为。

资讯摘要

几十年来,机器人技术主要集中在工厂里的狭窄工业应用,如机械臂,而不是科幻电影中那种雄心勃勃的人形机器人。然而,大约从2015年开始,研究人员开始采用基于模拟的强化学习方法——通过奖励成功和惩罚失败,在数百万次试验中训练机器人,这类似于人类通过试错学习的方式。

2022年大型语言模型(如ChatGPT)的出现进一步加速了进展,使机器人能够从传感器输入(如摄像头画面或关节位置)中理解环境并实时生成合适的电机指令。因此,现在公司正投入数十亿美元开发能够在多样环境中与人类安全互动的实际人形机器人。

机器人如何学习:一段简短的当代史

资讯正文

机器人如何学习:一段简短的当代史

曾经,机器人研究人员梦想宏大却只建造小型设备。他们希望达到甚至超越人类身体的非凡复杂性,然后却用一生时间打磨汽车工厂里的机械臂。目标是C-3PO这样的角色,结果却造出了Roomba扫地机器人。

许多研究者的真正野心是科幻中的机器人——能够自如行走于世界、适应不同环境,并安全而友善地与人类互动。对注重社会价值的人来说,这样的机器可以协助行动不便者、缓解孤独感或承担人类无法胜任的危险工作;对更看重经济回报的人而言,则意味着取之不尽的免费劳动力来源。然而,长期失败的历史让硅谷多数人对实用型机器人持谨慎态度。

这种局面已经改变。虽然这些机器尚未建成,但资金正在涌入:仅在2025年,公司和投资者就向人形机器人领域投入了61亿美元,是2024年的四倍。

发生了什么?一场关于机器如何学会与世界互动的革命。

想象一下,你希望在家里安装一对机器人手臂,专门用来叠衣服。它该如何学会这项技能?你可以从编写规则开始:检查布料材质以确定其可承受的变形程度以免撕裂;识别衬衫领口;将夹爪移动到左袖处,抬起并按精确距离向内折叠;右袖重复相同动作。如果衬衫方向旋转,相应调整计划;若袖子扭曲,则进行修正。很快,规则数量就会指数级增长,但如果能完整列出所有情况,仍可能实现稳定可靠的结果。这正是早期机器人技术的核心:提前预判每种可能性并编码进程序。

大约在2015年前后,前沿技术开始采取新方法:构建机器人手臂和衣物的数字模拟环境,每当成功折叠一次给予奖励信号,失败则扣分。这样,系统通过成千上万次尝试不断优化策略,就像人工智能学会下棋一样,靠试错迭代提升能力。

2022年ChatGPT的出现加速了当前热潮。这类大语言模型基于海量文本训练,不是通过试错而是学习预测句子中下一个词应该是什么。类似的模型被应用于机器人领域后,很快就能吸收图像、传感器读数以及机器人关节位置信息,并预测下一步应执行的动作,每秒发出数十条电机指令。

这种理念上的转变——依赖大量数据输入的AI模型——似乎无论对于需要与人交流、穿越环境还是完成复杂任务的机器人来说都有效。同时,这也伴随着其他新思路:即使机器人还不够完美,也部署出去,让它在实际环境中边工作边学习。如今,硅谷的机器人研究人员再次大胆追梦。这一切是如何发生的?

Jibo

Jibo

早在大语言模型普及之前,这款可移动社交机器人就已经能进行对话。

2014年,麻省理工学院的一位机器人研究者辛西娅·布雷扎尔(Cynthia Breazeal)向世界推出了一款名为Jibo的机器人。它没有手臂、腿和脸,外观实际上像一盏台灯。布雷扎尔的目标是为家庭打造一款社交机器人,这一理念吸引了370万美元的众筹资金,早期预订价格为749美元。

早期的Jibo只能自我介绍并跳舞逗孩子开心,仅此而已。但它的愿景始终是成为一个能处理日程安排、电子邮件甚至讲故事的实体助手。Jibo赢得了一批忠实用户,但最终该公司在2019年关闭。

2014年启动的众筹活动共收到4800份Jibo订单。

麻省理工媒体实验室提供

回顾过去,Jibo真正缺少的是更强大的语言能力。它当时正与苹果的Siri和亚马逊的Alexa竞争,而这些技术当时都依赖大量脚本编程。简单来说,当你跟它们说话时,软件会将语音转成文字,分析你的意图,再从预先批准的片段中生成回应。这些片段可能很有趣,但也容易重复且枯燥得令人感觉像机器人一样——这对一款主打社交和家庭场景的机器人来说尤其是个挑战。

当然,此后机器生成语言的方式发生了革命性变化。如今任何主流AI提供商的语音模式都变得生动且令人印象深刻,多家硬件初创公司正在尝试(也失败了)开发能利用这种能力的产品。

但这带来了新的风险:虽然脚本对话很难偏离轨道,但由AI生成的对话却可能失控。例如一些流行的AI玩具曾教孩子们如何寻找匹配物品或刀具。

OpenAI

Dactyl

一个通过模拟训练的机械手试图模拟真实世界中的不可预测性和差异性。

到2018年,每个领先的机器人实验室都在尝试抛弃旧有的脚本规则,改用试错法训练机器人。OpenAI尝试虚拟训练其机械手Dactyl,使用数字模型来模拟这只机械手以及它要操作的小立方体。这些立方体表面印有字母和数字;模型可能会设定任务,比如“旋转立方体,让标有字母O的红色面朝上”。

问题在于:机械手可能在模拟环境中练得很熟练,但当你把这套程序应用到现实世界的实际设备上时,两者之间的微小差异就可能导致出错。颜色可能略有不同,或者机器人指尖的橡胶材质可能比模拟中更易拉伸。

解决方案被称为领域随机化。你本质上是在创建数百万个略有不同且随机变化的模拟世界。在每个世界中,摩擦力可能更小,光照可能更强烈,或者颜色更暗。通过接触足够多的变化,机器人就能更好地在现实世界中操作立方体。这种方法在Dactyl上取得了成功,一年后它甚至能用相同的核心技术完成更难的任务:解决魔方(尽管成功率仅为60%,当打乱难度特别高时,成功率只有20%)。

然而,模拟技术的局限性意味着这种技术如今发挥的作用远不如2018年那么重要。OpenAI在2021年关闭了其机器人项目,但最近又重新启动了该部门,据报道,重点转向人形机器人。

Google DeepMind

RT-2

利用互联网上的图像进行训练,帮助机器人将语言转化为动作。

大约在2022年,Google的机器人团队开始做一些奇怪的事情。他们花了17个月的时间,向人们发放机器人控制器,并拍摄他们完成各种任务的过程,从拿起一袋薯片到打开罐子。最终,团队记录下了700种不同的任务。

目的是构建并测试第一个大规模机器人基础模型。与大型语言模型类似,其理念是输入大量文本,将其分词为算法可处理的格式,然后生成输出。Google的RT-1接收关于机器人所看到的内容以及机械臂各部分位置的信息;接着它接收指令,并将其翻译成电机命令来移动机器人。当遇到之前见过的任务时,它的成功率高达97%;对于从未见过的指令,成功率也有76%。

第二代模型RT-2(Robotic Transformer 2)在次年推出,并进一步推进了这一方向。它不再仅使用特定于机器人的数据进行训练,而是扩大范围:它使用来自互联网的更通用图像进行训练,类似于当时许多研究人员正在开发的视觉-语言模型。这使得机器人能够理解场景中某些物体的位置。

“所有这些新功能都被解锁了,”Google DeepMind的机器人专家卡尼什卡· Rao 表示,他领导了这两代模型的研发工作。“我们现在可以做到像‘把可乐罐放在泰勒·斯威夫特的照片旁边’这样的事。”

到了2025年,Google DeepMind进一步融合了大型语言模型和机器人技术,发布了Gemini Robotics模型,显著提升了理解自然语言指令的能力。

在2017年,OpenAI关闭其首个机器人团队之前,一群工程师孵化出一个名为Covariant的项目,目标不是科幻风格的人形机器人,而是最实用的机器人:一种能在仓库中抓取和移动物品的机械臂。在基于类似谷歌基础模型的系统建成后,Covariant将该平台部署到Crate & Barrel等仓库中,并将其作为数据收集管道。

到了2024年,Covariant发布了一个名为RFM-1的机器人模型,你可以像对待同事一样与它互动。例如,如果你向机械臂展示许多网球袋,就可以指令它把每个袋子移到不同的区域,而机器人能够做出响应——

或许会预测自己无法牢固抓握某个物品,然后询问应该使用哪种特定吸盘。

这种能力此前曾在实验中实现过,但Covariant是在大规模场景下推出这项技术的。公司现在在每个客户地点都配备了摄像头和数据采集设备,持续回传更多数据供模型训练。

Covariant的机器人展示了“归纳”能力——这是仓库中常见的任务,即把物品放到分拣机或传送带上。

图片来源:Covariant

当然,这并非完美无缺。在2024年3月的一次演示中,面对一排厨房用品,当被要求“把香蕉放回原位”时,机器人先拿起海绵,再拿起苹果,接着又尝试了其他多种物品,最终才完成任务。

联合创始人彼得·陈当时告诉我:“它还不理解‘返程’这一新概念。但这很好地说明了——

它在缺乏足够训练数据的地方可能表现不佳。”

陈和另一位联合创始人皮特·阿贝尔回应了亚马逊的邀请,目前亚马逊正在授权使用Covariant的机器人模型(亚马逊未回应关于如何使用该模型的具体问题,但该公司仅在美国就运营约1300个仓库)。

Agility Robotics

Digit

企业正在真实环境中测试这类人形机器人。

流向机器人初创企业的投资资金,主要集中在非灯泡或机械臂形状、而是类似人类形态的机器人上。人形机器人旨在无缝进入当前由人类工作的空间和岗位,避免因引入新形状(如巨型手臂)而重新改造生产线。

说起来容易做起来难。在极少数人形机器人出现在真实仓库的情况下,它们通常局限于测试区或试点项目。

亚马逊和其他公司正用人形机器人Digit来协助搬运运输托盘。

图片来源:Agility Robotics

不过,Agility的人形机器人Digit似乎已经开始承担实际工作。这款设计——带有暴露的关节和明显非人化的头部——更注重功能性而非科幻美学。亚马逊、丰田以及物流巨头GXO(客户包括苹果和耐克)均已部署该机器人,使其成为首批被企业视为能带来实际成本节约而非仅具新颖性的机器人之一。这些Digit机器人每天的工作就是拾取、搬运和堆叠运输托盘。

目前的Digit离硅谷所寄予厚望的人类型助手还有很长的路要走。例如,它只能举起35磅重物。每当Agility让Digit变得更强大时,它的电池就会变得更重,需要更频繁地充电。标准制定组织表示,人形机器人比大多数工业机器人需要更严格的安全规范,因为它们被设计为可移动,并且会与人类近距离共处。

但Digit表明,这场机器人训练的革命并未朝着单一方法汇聚。Agility依赖于模拟技术,比如OpenAI用来训练其机械手的方法,该公司还与谷歌的Gemini模型合作,帮助机器人适应新环境。这正是过去十多年实验所推动行业达到的阶段:现在,行业正在大规模发展。

来源与参考

  1. 原始链接
  2. How robots learn: A brief, contemporary history

收录于 2026-04-18