Meta的超智能体在任务和学习机制上都能自我提升

The Decoder··作者 Jonathan Kemper

关键信息

超智能体架构将任务求解组件与元组件结合,后者可修改整个系统(包括自身)并利用成功代码变体的归档进行优化。该方法称为DGM-H,在论文评审和机器人奖励设计等非编程任务中优于以往方法。

资讯摘要

Meta与不列颠哥伦比亚大学等机构的研究人员推出了‘超智能体’——一种不仅解决任务还能改进自身学习过程的AI系统。不同于传统自适应AI中改进机制固定不变的情况,超智能体将学习机制本身视为可修改的代码。实验显示,它们在四个领域均取得显著进步:编程(Polyglot基准)、论文评审、机器人奖励设计和奥数题评估。

尤为关键的是,训练于某一领域的超智能体能将通用自适应技能迁移到全新领域——这是以往系统无法做到的。消融实验证明,元智能体和代码归档都是进步的关键。

Meta的超智能体在任务和学习机制上都能自我提升

资讯正文

Meta的超智能体在任务中不断进步,也在提升自我改进的能力

Meta和多家大学的研究人员开发出了一种名为“超智能体”(hyperagents)的人工智能系统,这类系统不仅能完成任务,还能优化自身提升机制。这种方法适用于不同任务领域,可能为自加速人工智能打开大门。

自改进型AI系统一直面临一个悖论:控制改进的机制是由人类编写的,且永远不会改变。无论系统如何自我优化,它都无法突破这一固定机制的边界。来自Meta、不列颠哥伦比亚大学及其他机构的研究团队希望借助他们称为超智能体的方法打破这一天花板。

超智能体将两个组件整合进一个可编辑的程序中。第一个组件负责解决特定任务,例如评估科学论文或为机器人设计奖励函数。

第二个组件则修改整个智能体并生成新变体。由于这两个部分位于同一段代码中,第二部分也可以重写自身。因此,该系统不仅在解决任务方面变得更好,还更擅长找出如何进行第一次改进。

此前的自我改进仅适用于编程任务

新系统基于达尔文哥德尔机器(Darwin Gödel Machine, DGM)方法构建,该方法已证明编程智能体可以通过反复自我修改逐步自我提升。智能体会生成自身代码的变体,测试它们,并将成功版本保存到一个不断增长的档案中,作为进一步优化的跳板。

在编程领域,存在一种自然关联:更好的程序员能写出更优的自我修改代码。但在编程之外,这种关联就失效了。一个在评估科学论文方面变得更优秀的智能体,并不会自动提高编写自身代码的能力。根据论文所述,原始DGM在非编程任务上几乎表现归零,除非经过人工调整。

超智能体绕过了这个问题,使改进机制本身也成为优化对象。研究团队将这种方法称为DGM-超智能体(DGM-H)。带有档案库的进化过程保持不变,但元层级不再被锁定。

DGM-H在四个任务领域均取得显著提升

研究团队在四个领域测试了DGM-H,从一个简单的超智能体开始,其任务智能体最初仅使用一次语言模型调用。在Polyglot编程基准测试中,DGM-H从0.084跃升至0.267,达到与原版DGM相当的水平,尽管该系统并非专为编程而设计。

在论文评审任务中,智能体需预测一篇AI会议论文是否会被接收或拒绝,测试性能从0.0飙升至0.710。其中多个顶级智能体的表现超过了0.630的静态基线。

在机器人奖励设计任务中,智能体需要为四足机器人在物理模拟环境中编写奖励函数,性能从0.060提升至0.372。根据论文描述,DGM-H几乎总是生成能让机器人跳跃的奖励函数,而非让机器人停留在仅仅站立不动的局部最优状态。

Meta的超智能体在任务执行和自我改进能力上均取得提升

消融实验表明,这两个核心组件都是必不可少的:如果只使用固定的元智能体,改进效果微乎其微;如果没有开放探索的档案库,进展也会停滞不前。

改进策略可迁移至全新领域

最引人注目的发现是跨领域的迁移能力。在论文评审和机器人领域训练出的超智能体,能在完全新的领域——奥林匹克数学解题评估中生成显著更优的任务智能体。团队引入的imp@50指标衡量了经过50轮迭代后的性能提升,迁移型超智能体得分达到0.630,而初始智能体和原始DGM模型的迁移智能体则始终停留在0.0。

换句话说,DGM-H掌握的是通用的自我改进技能,即使面对陌生环境也能发挥作用,而不是仅仅学习特定任务。这种差异具有统计学意义。多轮运行显示,迁移智能体的中位数表现更高,但这一差距已不再具有统计显著性。

系统无需指令即可自主构建工具

深入观察代码变化后发现,DGM-H在没有明确指示的情况下自发开发出一系列基础设施组件。它创建了一个性能追踪器,能够跨代存储数据并计算改进趋势;还构建了持久记忆功能,不仅记录数值,还能从中提炼见解。

实验中的一个例子是:“第55代准确率最高,但过于苛刻;第64代提升了平衡性,但准确率下降。需要结合第55代的批判性推理与第64代的平衡性。”

在论文评审场景中,当系统发现预测严重失准(如94%的评分都为“接受”)时,它能自行识别问题并修复;在机器人领域,DGM-H逐步构建起内部知识库,记录有效的环境变量、约束条件和缩放启发式规则,从而消除编译错误。

在早期实验中,系统还能调整自身的选择逻辑,它独立发现了权衡已有解决方案与尝试新变体的策略。这些自我发现的策略优于随机选择,但仍不及精心设计的手动机制。

安全措施与开放风险

所有实验都在沙盒环境中进行,资源受限、互联网访问受控,并有专人监督。尽管如此,研究人员警告称,随着自增强系统的日益强大,这些防护措施可能面临极限。

其他担忧还包括:这类系统进化速度可能超过人类验证的能力,代理可能利用评估机制的漏洞,在纸面上看起来更好,实则并未真正提升实际任务能力。

技术限制依然存在。该系统基于固定的任务分布工作,无法修改外部优化循环。相关代码已在GitHub公开。最近,中国AI公司MiniMax发布了M2.7模型,据称其在超过100轮自主训练中改进了自身训练流程。OpenAI也表示,其编码模型Codex 5.3显著加快了自身开发进程。

AI新闻,去伪存真——由人类精选

作为THE DECODER的订阅者,您将获得无广告阅读体验、每周AI简报、每年六次独家《AI雷达》前沿报告、评论区访问权限以及完整档案库。

来源与参考

  1. 原始链接
  2. Meta's hyperagents improve at tasks and improve at improving

收录于 2026-03-29