物理智能公司π0.7机器人脑展现出组合泛化能力

TechCrunch AI·4月17日 04:26 UTC·作者 Connie Loizos

关键信息

该模型在仅见过两次空气炸锅的情况下成功使用了它——一次是将其推合，另一次是在他人指令下把瓶子放进去——通过整合预训练知识和口头指导实现了这一成果。

资讯摘要

位于旧金山的物理智能公司发布研究显示，其π0.7机器人脑能通过组合不同情境下的技能来泛化到未训练过的任务。在一项测试中，该模型在仅见过两次空气炸锅的情况下，通过逐步口头指导成功烤制了一个红薯。团队强调这不是简单的记忆，而是真正的组合泛化——即能力随着数据增加呈非线性提升。

然而，该模型仍需人类指导才能完成复杂任务，并且无法自主执行多步骤操作。研究人员警告称，成功高度依赖提示工程，早期失败主要源于指令不清。

资讯正文

Physical Intelligence是一家成立两年、总部位于旧金山的机器人初创公司，这家低调但备受关注的AI企业周四发布了一项新研究，显示其最新模型能够指导机器人完成从未明确训练过的任务——这一能力甚至让该公司自己的研究人员感到意外。

这款名为π0.7的新模型标志着公司所称的向通用机器人大脑迈出的重要早期一步：这种大脑可以被指向一个陌生的任务，通过通俗语言进行指导，并真正完成该任务。如果这些发现经得起检验，它们表明机器人AI可能正接近一个转折点，类似于大语言模型领域曾经经历的那样——能力开始以超出数据本身预测的方式持续增强。

但首先：论文的核心主张是组合泛化能力——即把在不同情境中学到的技能结合起来，解决模型从未遇到过的问题。过去，机器人训练的标准方法本质上是机械记忆：收集特定任务的数据，用这些数据训练专用模型，然后对每个新任务重复此过程。Physical Intelligence表示，π0.7打破了这一模式。

“一旦它跨越了那个阈值，从仅仅执行你收集数据中的内容，转变为能以全新方式重新组合信息，”Physical Intelligence联合创始人、加州大学伯克利分校专注于机器人AI的教授Sergey Levine说，“能力的增长速度将远超数据量的线性增长。这种更优的扩展特性我们在其他领域也见过，比如语言和视觉。”

论文中最引人注目的演示涉及一个几乎从未在训练中出现过的空气炸锅。当研究团队调查时，他们只在全部训练数据集中找到了两个相关片段：一个是另一个机器人只是推动空气炸锅关闭；另一个来自开源数据集，其中第三个机器人按照指令把一个塑料瓶放进空气炸锅里。模型却巧妙地融合了这些片段以及更广泛的网络预训练数据，形成对这个电器工作原理的功能性理解。

“很难追踪知识究竟来自哪里，或者它会在哪里成功或失败，”Physical Intelligence的研究科学家、斯坦福大学计算机科学博士生Ashwin Balakrishna说。尽管如此，在没有任何指导的情况下，该模型仍尝试使用这个设备烤制一块红薯，表现尚可；而在逐步口头指导下（相当于人类像教新员工一样一步步解释任务），它则成功完成了操作。

这种指导能力至关重要，因为它表明机器人可以在新环境中部署，并在无需额外数据收集或模型重新训练的情况下实时改进。

那么这一切意味着什么？研究人员并不回避模型的局限性，而且他们非常谨慎，不会过于乐观。在至少一种情况下，他们甚至将责任直接归咎于自己的团队。

“有时候失败的原因不在机器人或模型上，”巴拉克里斯纳说，“而在于我们自己——我们不擅长提示工程。”他描述了一次早期空气炸锅实验，最初成功率仅为5%。但在大约半小时内优化了向模型说明任务的方式后，成功率飙升至95%。

该模型目前还无法仅凭一个高层次指令自主执行复杂的多步骤任务。“你不能对它说，‘嘿，给我做点吐司’，”莱文说，“但如果你一步步指导它——比如‘打开烤面包机这部分，按下那个按钮，做这个动作’——它实际上表现得很好。”

团队也承认，目前尚不存在标准化的机器人评测基准，这使得外部验证他们的主张变得困难。相反，公司用π0.7与自家此前专门训练的模型进行了对比——这些专用系统是针对单一任务训练的。结果显示，通用模型在包括制作咖啡、折叠衣物和组装箱子等一系列复杂任务上的表现，与这些专业模型相当。

如果相信研究者的说法，这项研究最值得注意的地方可能不是某个单独的演示，而是结果让他们感到惊讶的程度——这些人正是那些深知训练数据内容的人，因此本应清楚模型能做什么、不能做什么。

“我过去的经验一直是，当我深入了解数据内容时，我可以大致猜出模型能做到什么，”巴拉克里斯纳说，“我很少感到意外。但最近几个月是我第一次真正感到惊讶。我只是随机买了一个齿轮套装，然后问机器人：‘嘿，你能转动这个齿轮吗？’结果它真的成功了。”

莱文回忆起研究人员首次看到GPT-2生成关于安第斯山脉独角兽的故事时的情景。“它到底从哪儿学到了秘鲁的独角兽？”他说，“这是个极其奇怪的组合。我认为在机器人领域看到这样的情况非常特别。”

当然，批评者会指出这里存在一个令人不安的不对称性：语言模型可以从整个互联网中学习，而机器人做不到，无论多么巧妙的提示也无法完全弥补这一差距。但当被问及质疑主要来自哪里时，莱文却指向了另一个方向。

“任何机器人泛化演示都能被提出的批评是，这些任务有点无聊，”他说，“机器人并没有做空翻。”他反驳这种看法，认为区分一场惊艳的机器人演示和一个真正具备泛化能力的机器人系统，恰恰是关键所在。他认为，泛化能力看起来永远不如精心编排的特技那样震撼，但却更加实用。”

这家热门机器人初创公司Physical Intelligence表示，其新开发的机器人大脑能够完成从未被教授过的任务。

这篇论文全文使用了谨慎的措辞，将π0.7描述为显示出‘早期通用性迹象’和‘初步能力演示’。这些只是研究成果，并非已部署的产品，而且Physical Intelligence从一开始就对商业化时间表保持克制。

当被直接问及基于这些发现的系统何时能投入现实世界部署时，莱文拒绝做出猜测。他说：‘我认为有充分理由保持乐观，而且显然它的进展比两年前我预期的要快得多。但这个问题很难回答。’

截至目前，Physical Intelligence已筹集超过10亿美元资金，最新估值达56亿美元。投资者对该公司的热情有很大一部分源于联合创始人拉奇·格鲁姆（Lachy Groom），他在硅谷长期被视为备受推崇的天使投资人，曾投资Figma、Notion和Ramp等公司，直到他认为Physical Intelligence就是自己一直在寻找的公司。这种背景帮助这家初创企业吸引了大量机构资金，即便它始终没有向投资者提供明确的商业化时间表。

据悉，该公司目前正在洽谈新一轮融资，可能使估值接近翻倍至110亿美元。不过该团队拒绝发表评论。

来源与参考

收录于 2026-04-17