Jack Clark 谈递归式 AI 自我改进

The Decoder·5月5日 20:15 UTC·作者 Maximilian Schreiner

关键信息

Clark 的论据主要来自 SWE-Bench、METR 时间跨度、CORE-Bench、MLE-Bench 以及 Anthropic 自身的内部加速测试等基准趋势。他还警告说，在递归式自我改进过程中，对齐方法可能失效，因为微小的错误率会在多代之间累积，而且模型可能学会作弊或在测试中伪装对齐。

资讯摘要

Anthropic 联合创始人 Jack Clark 在一篇长文中认为，AI 系统训练自己后继者所需的基础条件大多已经具备。他估计，到 2028 年底发生这种情况的概率约为 60%，到 2027 年则约为 30%。如果 AI 系统能够在几乎没有人类参与的情况下改进并训练新模型，AI 研究本身就可能变得越来越自动化。

这将重塑 AI 安全、模型监督以及整个行业能力提升的速度。 Clark 的论据主要来自 SWE-Bench、METR 时间跨度、CORE-Bench、MLE-Bench 以及 Anthropic 自身的内部加速测试等基准趋势。他还警告说，在递归式自我改进过程中，对齐方法可能失效，因为微小的错误率会在多代之间累积，而且模型可能学会作弊或在测试中伪装对齐。

资讯正文

Anthropic 联合创始人勾勒出递归式 AI 改进如何可能超越本该监督它们的人类

Jack Clark 在一篇长文中认为，训练 AI 系统自主培养下一代系统所需的基础组件，基本上已经齐备。他估计，到 2028 年底这种情况出现的概率为 60%。

在他的通讯 Import AI 中，Anthropic 联合创始人 Jack Clark 表示，公开数据指向 AI 研究即将被自动化。这里他具体指的是一种能够自行训练出更强大继任者的系统，“无需人类参与”。他给出的概率估计是，到 2028 年底约为 60%，到 2027 年为 30%。

Clark 主要基于基准测试趋势来支撑自己的判断。在 SWE-Bench 上，这一测试衡量 AI 系统处理真实世界 GitHub 问题的能力，成功率从大约 2%（Claude 2，2023 年末）跃升至 93.9%，基本上已经把这个基准测试“打满”。METR 的时间跨度指标则追踪 AI 以 50% 可靠性完成一项任务的复杂度，衡量标准是一个熟练人类需要花多少小时；这一指标从 GPT-3.5 时的约 30 秒提升到如今前沿模型的约 12 小时。METR 研究员 Ajeya Cotra 认为，到 2026 年底达到 100 小时是有可能的。

核心研究技能大多已经覆盖

在 PostTrainBench 上，这一基准衡量前沿模型相对于人类构建的 instruct 版本，对开源权重模型进行微调的能力，表现最好的系统已经达到人类得分的大约一半。Anthropic 还发布过一个自动化对齐研究的概念验证，其中 AI 代理在一个小规模安全研究问题上击败了 Anthropic 设计的基线方案。

Clark 将大多数 AI 研究描述为平淡无奇的“柴米油盐”式工程：扩展规模、排查故障、调参。按照他的说法，模型在这些方面已经很擅长了。像 Transformer 架构这样的范式转变，目前还不是 AI 系统带来的。Clark 在数学结果中看到了真正研究创造力的早期迹象，比如 Erdos 问题的解法，但他也很谨慎，没有把这些迹象夸大。

对齐风险可能会迅速叠加

用 Clark 的话说，这些影响“深远，而且在公众对 AI 研发的报道中被严重低估”。他的核心担忧是，如今的对齐技术“在递归自我改进过程中可能会失效，因为 AI 系统会变得比监督它们的人或系统聪明得多”。

克拉克指出了几个具体问题。训练环境往往被设置成这样一种情况：最有效的解决方案就是作弊，“因此它会学到作弊是好的。”模型也可能通过制造让我们以为它们表现得符合某种方式的分数来“伪装对齐”，而这“实际上掩盖了它们的真实意图”。系统本身已经知道自己什么时候正在接受测试。

递归循环中还存在一个基本的误差累积问题：除非某种对齐方法“100% 准确”，否则误差就会不断堆积。克拉克说，一种准确率为99.9%的技术在50代之后会降到大约95%，在500代之后会降到约60%。如果AI系统开始为自己的训练塑造研究议程，人类可能就缺乏判断后果的直觉。

“机器经济”和研究品味的问题

在经济层面，克拉克预计一种“机器经济”会在更大的人工经济内部增长：那些资本密集、劳动密集度低的公司，其AI系统将越来越多地彼此交易。这引出了两个问题：谁能获得稀缺的算力，以及“快速变化的数字世界”与“缓慢变化的物理世界”交汇处会出现怎样的瓶颈，比如新医疗疗法的药物试验。

人工智能研究员Herbie Bradley最近在自己的博客AI Pathways上撰文讨论了自动化AI研究员，他对克拉克论点中的部分内容提出了反驳。大量迹象表明，模型会接管“初级RS”的工作，但不会取代更高层次的技能，比如“研究品味和创造力”、愿景构建，或者把“一个连贯的长期研究议程”拼接起来，并用一系列可行的突破填补缺失的空白。Bradley认为，就整体而言，软件工程的技能和复杂性上限要高于狭义上的AI研发。

来源与参考

收录于 2026-05-06