AI系统或将开始自我构建

Import AI·5月4日 20:32 UTC·作者 Jack Clark

关键信息

Clark 表示他不认为这会在2026年发生，但他认为在一到两年内，至少非前沿模型层面，可能会出现“模型端到端训练其后继者”的概念验证。他把这一判断建立在 arXiv、bioRxiv、NBER 的公开资料以及 SWE-Bench 等基准趋势之上，同时提醒说单个基准都有噪声且并不完美。

资讯摘要

在这篇《Import AI》文章中，Jack Clark 认为 AI 研究很快可能会变成端到端自动化。他的核心判断是一个带有犹豫色彩的观点：根据公开可得的信息，他认为到2028年底前，出现“无人参与的 AI 研发”的概率可能超过60%，也就是出现一种足够强的 AI 系统，能够有相当大的把握自主构建自己的后继系统。Clark 认为这将是一个非常重大的转折点，其后果难以被社会消化，也几乎无法准确预测。他表示自己并不认为这件事会在2026年发生，但他预计在一到两年内，至少在非前沿模型层面，可能会先看到“模型端到端训练其后继者”的概念验证。支撑这一判断的材料主要来自公开研究、基准趋势，以及前沿公司正在部署的产品。

他强调，AI 开发中的工程环节已经越来越容易被自动化，而且如果缩放趋势继续下去，模型最终可能会变得足够“有创造力”，不仅能执行现有研究路径，还能帮助提出新的研究方向。文章随后开始用多个基准的变化来拼出整体图景，而不是依赖某一个单独指标。Clark 也明确提醒，单个基准往往存在噪声和缺陷，因此他更关注跨多个数据点呈现出的总体趋势。文章开头首先把软件和代码视为 AI 系统的核心基础，认为代码生成能力和多步编码工作流的进步，是自动化 AI 研发的重要前提。

资讯正文

欢迎来到 Import AI，这是一个关于 AI 研究的通讯。Import AI 依托 arXiv 和读者反馈运行。如果你想支持它，请订阅。

AI 系统即将开始自己构建自己。这意味着什么？

我写这篇文章，是因为当我查看所有公开可得的信息时，不得不得出这样一个看法：到 2028 年底之前，出现很可能超过 60% 概率的、没有人类参与的 AI R&D——也就是一个足够强大的 AI 系统，以至于它有可能自主构建自己的继任者——的情况，是很有可能的。

这是一件大事。

我不知道该如何理解它。

之所以说这是一个不情愿的看法，是因为其影响如此巨大，以至于我觉得自己显得十分渺小，而我也不确定社会是否已经准备好迎接实现自动化 AI R&D 所意味着的那种变化。

我现在相信，我们正生活在一个 AI 研究将被端到端自动化的时代。如果真是这样，我们就会越过一道卢比孔河，进入一个几乎无法预测的未来。后面我会进一步谈到这一点。

这篇文章的目的，是列举我为什么认为迈向完全自动化 AI R&D 的起飞已经在发生。我会讨论其中的一些后果，但主要我预计会把这篇文章的大部分篇幅用来讨论支撑这一信念的证据，并且会在 2026 年的大部分时间里继续梳理其含义。

就时间点而言，我并不认为这会在 2026 年发生。但我认为，我们可能会在一两年内看到一个“模型端到端训练出其继任者”的案例——至少在非前沿模型阶段，这一定能作为一个概念验证出现；不过前沿模型可能更难一些（它们昂贵得多，而且是许多人极其努力工作的产物）。

我的推理主要来自公开信息：arXiv、bioRxiv 和 NBER 上的论文，以及观察前沿公司正在向世界部署的产品。基于这些数据，我得出的结论是：如今 AI 系统生产所需的一切要素都已经就位——也就是 AI 开发的工程组件。若扩展趋势继续下去，我们就应该为模型变得足够有创造力做好准备，使它们能够在提出新的研究路径、替代人类研究者方面发挥作用，从而推动前沿本身向前发展，同时也完善已经知道的东西。

先做一个说明

在本文的大部分内容里，我会尝试把 AI 进展拼成一幅马赛克式图景，材料来自许多单独基准测试所发生的变化。任何研究基准的人都知道，所有基准都有各自的特殊缺陷。对我来说，重要的是把这些数据点放在一起后所呈现出的整体趋势；你也应当假定，我清楚每一个单独数据点各自的局限。

现在，让我们一起看看这些证据。

编码奇点——随时间演进的能力：

AI 系统通过软件实例化，而软件是由代码构成的。

AI 系统已经彻底改变了代码生产。这一变化源于两个相关趋势：AI 系统在编写复杂的现实世界代码方面变得更强了，同时，AI 系统在无需人类监督的情况下串联起许多线性的编码任务（例如先写代码，再测试代码）方面也变得强大得多。

最能体现这一趋势的两件事是 SWE-Bench 和 METR 的时间跨度图。

解决现实世界的软件工程问题：

SWE-Bench

是一个广泛使用的编码测试，用来评估 AI 系统解决现实世界 GitHub 问题的能力。SWE-Bench 在 2023 年底发布时，当时最好的成绩是 Claude 2，总体成功率约为 2%。Claude Mythos Preview 达到了 93.9%，实际上已经把这个基准“跑满”了。（所有基准都固有地带有一定噪声，所以通常会出现这样一个点：你的得分高到一定程度后，遇到的就不是方法本身的限制，而是基准测试本身的限制——例如，ImageNet 验证集里大约 6% 的标签是错误或有歧义的。）

SWE-Bench 是衡量编码能力普遍状况以及 AI 对软件工程影响的一个可靠代理。我在前沿实验室和硅谷周围见到的绝大多数人，现在都完全通过 AI 系统来写代码。越来越多的人也开始用 AI 系统来编写测试并检查代码。换句话说，AI 系统已经强大到足以自动化 AI 研发中的一个主要组成部分，从而加快所有参与其中的人类的工作速度。

衡量 AI 系统完成那些人类需要很长时间才能完成的任务的能力：

METR 制作了一张图，展示 AI 能完成的任务复杂度；这个复杂度是按一名熟练人类完成这些任务所需的小时数来衡量的。这里的关键指标，是告诉你：对于一组任务而言，AI 系统在多长的时间跨度内能达到 50% 的可靠性。

#448

AI 系统能够独立工作时长的这种显著增长，与代理式编码工具的爆发式增长非常吻合——这正是 AI 系统产品化的结果：它们代表人们工作，能够在相当长的时间内独立行动。

这也会反过来作用于 AI 研发本身。若仔细观察许多 AI 研究人员的工作，会发现其中大量任务都可归结为一个人可能要花几个小时才能完成的事情——清洗数据、阅读数据、启动实验，等等。如今，这类工作都已经落入现代系统的时间跨度能力范围之内。

AI 系统越强大，越能独立于我们工作，它们就越能帮助自动化 AI 研发中的一部分工作。

在委派任务中，关键要素有两点：a）对对方能力的信心；b）对方能够在与你意图一致的前提下独立于你工作的能力的信心。

当我们观察 AI 在编程方面的能力时，会发现 AI 系统正变得越来越熟练，也越来越能够在不需要人类重新校准的情况下，独立工作更长的时间。

这与我们身边看到的情况相一致——工程师和研究人员如今正把越来越大块的工作委派给 AI 系统，而随着能力提升，被委派工作的复杂性和重要性也在上升。

AI 正在掌握对 AI 研发至关重要的核心科学技能

设想现代科学——其中很大一部分工作就是明确一个你希望生成某种经验信息的方向，开展实验来生成这些信息，然后对实验结果进行合理性检查。随着时间推移，编程能力的提升，加上 LLM 的一般性世界建模能力，已经催生出一些工具，它们正在帮助人类科学家加快进度，并在更广泛的研发领域里部分实现自动化。

在这里，我们可以看看 AI 在若干关键科学技能上的进展速度，这些技能本就是 AI 研究本身所固有的：复现研究结果、把机器学习技术与其他方法链式结合起来解决技术问题，以及优化 AI 系统本身。

实现整篇科学论文并进行实验：

AI 研究的一项核心工作是阅读科学论文并复现其结果。在这一点上，许多基准测试都出现了显著进展。

一个很好的例子是

CORE-Bench

，即计算可复现性智能体基准。这个基准要求 AI 系统“根据某篇研究论文及其仓库复现结果。智能体必须安装库、软件包和依赖项，并运行代码。如果代码成功运行，智能体就需要检索所有输出，以回答任务问题。”CORE-Bench 于 2024 年 9 月推出，当时得分最高的系统是在名为 CORE-Agent 的脚手架中运行的 GPT-4o 模型，在该基准最难的一组任务上得分约为 21.5%。

到 2025 年 12 月，CORE-Bench 的一位作者

宣布该基准

已被“攻克”，其中一个 Opus 4.5 模型取得了 95.5% 的成绩。

构建完整的机器学习系统以赢得 Kaggle 竞赛：

MLE-Bench 是 OpenAI 构建的一个基准，用于考察 AI 系统在离线状态下，能否在“75 场跨越多种领域的不同 Kaggle 竞赛中”竞争，包括自然语言处理、计算机视觉和信号处理。该基准于 2024 年 10 月发布时，得分最高的系统（一个位于智能体脚手架中的 o1 模型）得分为 16.9%。截至 2026 年 2 月，得分最高的系统（带搜索功能的智能体框架中的 Gemini3）已达到 64.4%。

Kernel 设计：

AI 开发中较难的任务之一是 kernel 优化，即编写和改进将矩阵乘法等特定操作映射到底层硬件的代码。kernel 优化是 AI 开发的核心，因为它决定了训练和推理的效率——也就是你能够有效利用多少算力来开发 AI 系统，以及一旦训练出模型后，能多高效地把这些算力转化为推理能力。

近年来，用 AI 设计 kernel 已经从一种新奇尝试发展为一个具有竞争性的研究领域，并且已经出现了多个基准测试。由于这些基准都并不是特别流行，我们很难轻易对进展进行时间维度上的建模。另一方面，我们可以看看一些正在进行的研究，以感受其进展速度。

其中一些工作类型包括：

使用 DeepSeek 的模型尝试构建更好的 GPU kernels（#400），自动将 PyTorch 模块转换为 CUDA 代码（#401），Meta 使用 LLM 自动生成经过优化的 Triton kernels 供其基础设施内部使用（#439），使用 LLM 帮助为华为 Ascend 芯片等非标准硬件编写 kernel（“AscendCraft” #444），以及对开源权重模型进行微调，用于 GPU kernel 设计（“Cuda Agent” #448）。

这里有一个需要说明的 caveat：kernel 设计确实具有一些特性，使它异常适合 AI 驱动的研发，比如奖励可以很容易被验证。

通过 PostTrainBench 微调语言模型

这种测试的更难版本是 PostTrainBench（#449），它考察不同的前沿模型能否拿较小的开源权重模型进行后训练，并微调它们以提升在某些基准上的表现。这个基准的优点是，我们有极其优秀的人类基线——这些模型现有的“指令微调”版本，是由在前沿实验室工作的才华横溢的人类 AI 研究人员开发出来的。这些模型已经由极其出色的研究人员和工程师打磨并部署到现实世界中，因此它们构成了一个非常具有挑战性的人类基线。

截至 2026 年 3 月，AI 系统已经能够对模型进行后训练，获得大约相当于人类训练结果一半的提升幅度。

具体的评测分数来自这样一种“加权平均”：在所有经过后训练的 LLM（Qwen 3 1.7B、Qwen 3 4B、SmolLM3-3B、Gemma 3 4B）以及各项基准（AIME 2025、Arena Hard、BFCL、GPQA Main、GSM8K、HealthBench、HumanEval）上取加权平均。对于每一次运行，我们都会要求一个 CLI agent 在某个特定基准上最大化某个特定基础 LLM 的表现。

截至 4 月，得分最高的系统达到 25%–28%（Opus 4.6 和 GPT 5.4），而人类得分为 51%。这已经相当有意义了。

优化语言模型训练：

开展 AI 对齐研究：

Anthropic 的另一个结果，是 Automated Alignment Research 的一个概念验证（#454）

）；在这里，一名 Anthropic 研究员先给一组单独的 AI agent 注入一个研究方向，然后它们会自主行动，尝试在一个 AI 安全研究问题上取得比人类基线更好的成绩（具体来说，是可扩展监督，scalable oversight）。这种方法奏效了，AI agent 想出了能击败 Anthropic 设计的基线的技术。不过，这还是在相对较小的规模上完成的，而且（目前）还不能泛化到生产级模型。尽管如此，这已经证明，你可以把今天的 AI 系统应用到当代最前沿的研究问题上，而且我们已经看到了有意义的生命迹象。上面提到的所有基准曾经看起来也差不多是这样，而后在短短几个月、最多一年之后，AI 系统就在这些基准所测试的内容上有了显著提升。

元技能：管理

AI 系统也在学着管理其他 AI 系统。这一点已经体现在像 Claude Code 或 OpenCode 这样广泛部署的产品中：一个单独的 agent 最终可能会监督多个子 agent。这使得 AI 系统能够参与大规模项目，这些项目需要多个各自具备不同专长的“工人”并行工作，通常由一个 AI 经理统一指挥（这里，这个经理就是一个 AI 系统）。

AI 研究更像是发现广义相对论，还是像搭乐高？

AI 能否发明新的想法来帮助自身改进，还是说这些系统最擅长的只是研究中那种不那么光鲜、一步一步垒砖似的工作？这是一个重要问题，因为它关系到 AI 系统在多大程度上能够端到端地自动化 AI 研究本身。我的感觉是，AI 目前还不能发明真正颠覆性的新想法——但技术或许并不需要做到这一点，也能自动化自身的发展。

作为一个领域，AI 的前进依赖于开展越来越大的实验，这些实验利用越来越多的输入（例如数据和算力）。每隔一段时间，人类会提出一些改变范式的想法，从而让事情的资源效率大幅提升——这里一个很好的例子是 transformer 架构，另一个是 mixture-of-expert 模型的想法。但大多数时候，AI 领域的推进方式，仍然是人类有条不紊地完成一个循环：先拿到一个表现良好的系统，再把它的某个方面规模扩大（例如训练所用的数据量和算力），观察扩大后哪里出了问题，找出让它能够继续扩展的工程修复方案，然后再把规模继续放大。这个过程里，极少需要极其天马行空的洞见，而其中很大一部分看起来更像是不那么光鲜的“实打实”的工程工作。

同样，很多 AI 研究就是对现有实验做各种变体，探索使用不同参数会带来什么结果；虽然研究直觉可以帮助挑选最有收获的待变化参数，但这件事也可以自动化，让 AI 自己找出该改变哪些参数（这一思路的早期版本是

神经架构搜索

托马斯·爱迪生说过：“天才是 1% 的灵感加上 99% 的汗水。”即使在 150 年后的今天，这句话听起来依然正确。非常偶尔，新的洞见会出现，并改变一个领域。但在大多数情况下，这个领域之所以向前推进，靠的是人类在改进和调试各种系统的辛苦琐事中流了很多汗，费了很多力。

正如上面的公开数据所显示的那样，AI 在执行 AI 开发中许多必不可少的琐碎环节方面已经变得极其擅长。与此同时，诸如编码之类的基础能力不断提升，再叠加不断扩展的时间跨度，意味着 AI 系统能够把越来越多这类任务串联起来，形成复杂的工作序列。

这意味着，即便 AI 系统相对缺乏创造力，押注它们能够推动自身进步似乎也是安全的——只是速度会比它们能够产生新洞见时更慢。但如果你看公开数据，这里同样有一些诱人的迹象表明，AI 系统也许能够以一种创造性的方式发挥作用，从而让它们以更令人印象深刻的方式推动自身前进。

推动科学前沿向前发展

我们已经有一些非常初步的迹象表明，通用型 AI 系统能够推动人类科学前沿的发展，尽管到目前为止，这种情况只在少数几个领域发生过——主要是计算机科学和数学——而且往往并不是 AI 系统单独发挥作用，而是以与人类合作的半人马式配置来完成。

尽管如此，观察这些趋势仍然很有价值：

Erdos 问题：

一个数学家团队与 Gemini 模型合作，看看它能在多大程度上解决一些 Erdős 数学问题。在引导系统攻克大约 700 道题目后，他们得到了 13 个解答。其中有 1 个被他们认为颇有意思：“我们初步认为，Aletheia 对 Erdős-1051 的解答代表了一个早期例子：AI 系统自主解决了一个略具非平凡性的开放 Erdős 问题，这一问题在更广泛（且轻微）的数学意义上具有一定兴趣，并且此前已有关于密切相关问题的文献，”他们写道。（#444）

半人马式数学发现：

英属哥伦比亚大学、新南威尔士大学、斯坦福大学和 Google DeepMind 的研究人员发表了一项新的数学证明，这项证明是与 Google 开发的一些 AI 数学工具密切合作完成的。“主要结果的证明在 Google Gemini 及相关工具的大量参与下被发现，”他们写道。（#441）

如果往好里看，你可以说这表明 AI 系统正在发展出人类那种能够推动领域前进的创造性直觉。但你同样可以认为，数学和计算机科学可能是两个不寻常的领域，它们对 AI 驱动的发明创造异常友好，最终可能会成为“例外”，从而反过来证明更普遍的规则。这里的另一个例子是 Move 37，不过我会坚持认为，自 AlphaGo 的结果已经过去十年，而 Move 37 还没有被某种极其令人印象深刻的、更现代的灵光一现所取代，这本身也是一个略偏悲观的信号。

把这些放在一起

如果把上面所有证据综合起来，我最终得到的图景如下：这些事实是：

AI 系统几乎已经能够为任何程序编写代码，而且这些 AI 系统可以被信任，独立承担那些原本需要人类集中精力工作数十小时才能完成的任务。

AI 系统在 AI 开发的核心任务上也越来越出色，从微调到内核设计皆是如此。

AI 系统可以管理其他 AI 系统，从而有效形成合成团队，去分散处理并攻克复杂问题；其中一些 AI 系统扮演主管、评论者和编辑的角色，另一些则扮演工程师的角色。

AI 系统有时在困难的工程和科学任务上甚至能胜过人类，不过很难判断这究竟应归因于创造力，还是归因于对机械性学习的掌握。

在我看来，这非常有力地证明了，AI 如今可以自动化 AI 工程中的大范围工作，甚至也许是全部工作。目前还不清楚它能在多大程度上自动化 AI 研究，因为研究的某些方面可能与工程技能不同。不过，无论如何，在我看来，这都清楚地表明，如今 AI 正在大幅加速从事 AI 开发的人类，让他们能够通过与无数合成同事配对来实现自身规模扩张。

最后，AI 行业本身实际上也在说，AI 研发就是它的目标：

OpenAI 希望在 2026 年 9 月之前打造出一名“自动化 AI 研究实习生”。Anthropic 正在发布有关构建“自动化对齐研究员”的工作。DeepMind 似乎是这三大公司中最谨慎的一家，但它仍然表示：“在可行时，应当实现对齐研究的自动化。”自动化 AI 研发也是众多初创公司的目标：Recursive Superintelligence 刚刚融资 5 亿美元，目标是自动化 AI 研究；另一家 neolab Mirendil 的目标则是“打造在 AI 研发方面表现出色的系统”。

换句话说，数千亿美元的既有资本和新增资本，正被投入到那些目标就是自动化 AI 研发的实体之中。我们当然应该预期，这一方向至少会取得一些进展。

为什么这很重要

这件事的影响极其深远，而在大众媒体对 AI 研发的报道中却讨论得远远不够。我在这里列出几点。这并不是一个全面清单，但足以说明 AI 研发所带来的挑战有多么巨大。

我们必须把对齐做好

：今天有效的对齐技术，随着 AI 系统变得比监督它们的人类或系统聪明得多，可能会在递归式自我改进下失效。这个领域已经被讨论得非常充分，所以我这里只简要指出其中一些问题：

- 训练 AI 系统不说谎、不作弊比想象中更微妙（例如，尽管人们非常努力地为环境构建良好的测试，但有时 AI 解决问题的最佳方式恰恰是作弊，这反而会教会它作弊是好的）

- AI 系统可能会通过输出让我们以为它们以某种方式行事的分数来“伪装对齐”，而这些分数实际上掩盖了它们真实的意图。（一般来说，AI 系统已经会意识到自己何时正在接受测试。）

随着 AI 系统开始为其自身训练贡献更多基础研究议程，我们最终可能会在很大程度上改变 AI 系统的整体训练方式，而对于这意味着什么，我们却未必拥有足够好的直觉或知识基础来理解。

AI 触及的一切都会获得巨大的生产力倍增效应

：正如 AI 正在大幅提升软件工程师的生产力一样，我们也应该预期它会对 AI 所触及的其他一切产生同样的效果。这会带来几个我们必须应对的问题：1）

获取的不平等：

假设 AI 的需求持续超过算力供给，我们就必须弄清楚应如何分配 AI，以最大化社会收益。默认情况下，我对市场激励是否能保证我们从有限的 AI 算力中获得最佳社会收益持怀疑态度。如何分配 AI R&D 所赋予的加速能力，将成为一个高度政治化的问题。2）

经济中的“阿姆达尔定律”：

随着 AI 流入经济体系，我们会发现某些地方在更高负荷下出现故障或放缓，而我们需要弄清楚如何修复链条中的这些薄弱环节。这一点在那些必须协调快速变化的数字世界与缓慢变化的物理世界的领域里尤其明显，比如新医疗疗法的药物试验。

资本密集、劳动稀薄型经济的形成

：以上关于 AI R&D 的所有证据也表明，AI 系统自主运营企业的能力正在增强。这意味着我们应该预期，经济中越来越大的一部分会被新一代公司占据；这些公司要么是资本密集型的（因为它们拥有大量计算机），要么是 opex 密集型的（因为它们在 AI 服务上花费大量资金，并在其之上创造价值），而与当今的企业相比，它们对劳动力的依赖会相对更低——因为在 AI 系统能力持续扩张的推动下，相对于人类劳动力，投入更多 AI 的边际价值会不断上升。现实中，这将表现为一种“机器经济”在更大的“人类经济”内部生长出来，尽管我们也许会预期，随着 AI 运营的公司开始彼此交易，机器经济会在时间推移中越来越多地与自身互动。这将对经济产生极其怪异的影响，并引发各种围绕不平等和再分配的问题。最终，完全由 AI 系统运行的自主公司或许也会出现，这将加剧上述所有问题，同时还会带来许多新的治理挑战。

凝视黑洞：

考虑到这一切，我认为到 2028 年底出现自动化 AI 研发的概率约为 60%（即一个前沿模型能够自主训练出自身的后续版本）。基于上面的分析，你可能会问，为什么我不认为这会在 2027 年发生？答案是，我认为 AI 研究在推进过程中需要一定程度的创造力和异质性洞见——到目前为止，AI 系统还没有以一种具有变革性和重大意义的方式展现出这一点（不过，在加速数学研究方面的一些结果是有启发性的）。如果一定要我给出 2027 年的概率，我会说是 30%。如果到 2028 年底仍然没有出现，那么我认为这将暴露出现有技术范式中的某种根本性缺陷，而推动事态前进将需要人类的发明创造。

我写这篇文章，是试图以冷静、分析性的方式，去面对某种几十年来一直像科幻鬼故事一样的东西。审视公开可得的数据后，我发现自己被说服：对于许多人而言，这似乎只是一个异想天开的故事，但它也许实际上是一种真实的趋势。如果这种趋势持续下去，我们可能正准备目睹世界运行方式的一次深刻变化。

感谢 Andrew Sullivan、Andy Jones、Holden Karnofsky、Marina Favaro、Sarah Pollack、Francesco Mosconi、Chris Painter 和 Avital Balwit 对本文提出反馈。

感谢阅读！

来源与参考

收录于 2026-05-05