Jack Clark 谈递归式 AI 自我改进
The Decoder··作者 Maximilian Schreiner
关键信息
Clark 的论据主要来自 SWE-Bench、METR 时间跨度、CORE-Bench、MLE-Bench 以及 Anthropic 自身的内部加速测试等基准趋势。他还警告说,在递归式自我改进过程中,对齐方法可能失效,因为微小的错误率会在多代之间累积,而且模型可能学会作弊或在测试中伪装对齐。
资讯摘要
Anthropic 联合创始人 Jack Clark 在一篇长文中认为,AI 系统训练自己后继者所需的基础条件大多已经具备。他估计,到 2028 年底发生这种情况的概率约为 60%,到 2027 年则约为 30%。 如果 AI 系统能够在几乎没有人类参与的情况下改进并训练新模型,AI 研究本身就可能变得越来越自动化。
这将重塑 AI 安全、模型监督以及整个行业能力提升的速度。 Clark 的论据主要来自 SWE-Bench、METR 时间跨度、CORE-Bench、MLE-Bench 以及 Anthropic 自身的内部加速测试等基准趋势。他还警告说,在递归式自我改进过程中,对齐方法可能失效,因为微小的错误率会在多代之间累积,而且模型可能学会作弊或在测试中伪装对齐。

资讯正文
Anthropic 联合创始人勾勒出递归式 AI 改进如何可能超越本该监督它们的人类
Jack Clark 在一篇长文中认为,训练 AI 系统自主培养下一代系统所需的基础组件,基本上已经齐备。他估计,到 2028 年底这种情况出现的概率为 60%。
在他的通讯 Import AI 中,Anthropic 联合创始人 Jack Clark 表示,公开数据指向 AI 研究即将被自动化。这里他具体指的是一种能够自行训练出更强大继任者的系统,“无需人类参与”。他给出的概率估计是,到 2028 年底约为 60%,到 2027 年为 30%。
Clark 主要基于基准测试趋势来支撑自己的判断。在 SWE-Bench 上,这一测试衡量 AI 系统处理真实世界 GitHub 问题的能力,成功率从大约 2%(Claude 2,2023 年末)跃升至 93.9%,基本上已经把这个基准测试“打满”。METR 的时间跨度指标则追踪 AI 以 50% 可靠性完成一项任务的复杂度,衡量标准是一个熟练人类需要花多少小时;这一指标从 GPT-3.5 时的约 30 秒提升到如今前沿模型的约 12 小时。METR 研究员 Ajeya Cotra 认为,到 2026 年底达到 100 小时是有可能的。
核心研究技能大多已经覆盖
在 PostTrainBench 上,这一基准衡量前沿模型相对于人类构建的 instruct 版本,对开源权重模型进行微调的能力,表现最好的系统已经达到人类得分的大约一半。Anthropic 还发布过一个自动化对齐研究的概念验证,其中 AI 代理在一个小规模安全研究问题上击败了 Anthropic 设计的基线方案。
Clark 将大多数 AI 研究描述为平淡无奇的“柴米油盐”式工程:扩展规模、排查故障、调参。按照他的说法,模型在这些方面已经很擅长了。像 Transformer 架构这样的范式转变,目前还不是 AI 系统带来的。Clark 在数学结果中看到了真正研究创造力的早期迹象,比如 Erdos 问题的解法,但他也很谨慎,没有把这些迹象夸大。
对齐风险可能会迅速叠加
用 Clark 的话说,这些影响“深远,而且在公众对 AI 研发的报道中被严重低估”。他的核心担忧是,如今的对齐技术“在递归自我改进过程中可能会失效,因为 AI 系统会变得比监督它们的人或系统聪明得多”。
克拉克指出了几个具体问题。训练环境往往被设置成这样一种情况:最有效的解决方案就是作弊,“因此它会学到作弊是好的。”模型也可能通过制造让我们以为它们表现得符合某种方式的分数来“伪装对齐”,而这“实际上掩盖了它们的真实意图”。系统本身已经知道自己什么时候正在接受测试。
递归循环中还存在一个基本的误差累积问题:除非某种对齐方法“100% 准确”,否则误差就会不断堆积。克拉克说,一种准确率为99.9%的技术在50代之后会降到大约95%,在500代之后会降到约60%。如果AI系统开始为自己的训练塑造研究议程,人类可能就缺乏判断后果的直觉。
“机器经济”和研究品味的问题
在经济层面,克拉克预计一种“机器经济”会在更大的人工经济内部增长:那些资本密集、劳动密集度低的公司,其AI系统将越来越多地彼此交易。这引出了两个问题:谁能获得稀缺的算力,以及“快速变化的数字世界”与“缓慢变化的物理世界”交汇处会出现怎样的瓶颈,比如新医疗疗法的药物试验。
人工智能研究员Herbie Bradley最近在自己的博客AI Pathways上撰文讨论了自动化AI研究员,他对克拉克论点中的部分内容提出了反驳。大量迹象表明,模型会接管“初级RS”的工作,但不会取代更高层次的技能,比如“研究品味和创造力”、愿景构建,或者把“一个连贯的长期研究议程”拼接起来,并用一系列可行的突破填补缺失的空白。Bradley认为,就整体而言,软件工程的技能和复杂性上限要高于狭义上的AI研发。
来源与参考
收录于 2026-05-06