Anthropic称Claude写了大部分代码

The Decoder·6月5日 16:45 UTC·作者 Matthias Bastian

关键信息

Anthropic表示，2026年第二季度工程师每天交付的代码量大约是2024年的8倍，但公司也提醒，代码行数并不能准确代表真实生产力。该公司称，Claude写出的代码在2025年末还不如人工代码，现在已大致持平，并可能在一年内变得更好。

资讯摘要

Anthropic通过其内部的 Anthropic Institute 发布了一份报告，并使用了此前未公开的内部数据，来展示Claude在公司自身开发中的参与程度。报告最引人注目的结论是，Claude现在撰写了Anthropic生产代码中超过80%的内容，而高层估计如果把脚本和实验性代码也算上，这一比例超过90%。公司称，这与2025年2月Claude Code发布前相比是巨大变化，当时这一比例还只有很低的个位数。文中引用的一名员工甚至表示，自己大约已经有五个月没有亲自写过任何代码了。Anthropic还表示，2026年第二季度工程师每天交付的代码量大约是2024年的8倍，但公司同时承认，代码行数并不能很好衡量真实生产力，而且这一数字很可能高估了实际提升。

2026年3月的一项内部调查覆盖130名员工，结果显示中位数估计认为 Mythos Preview 带来的生产力提升约为4倍，而Anthropic认为这个数字仍然略高。关于质量，报告称Claude写出的代码在2025年末还比人工代码略差，如今已经大致持平，并预计一年内会变得明显更好。Anthropic还举例说，一个自动化的Claude审查器本可以在某些claude.ai事故进入生产环境之前发现其中约三分之一的bug；另一个例子是，2026年4月Claude完成了800多项修复，将某类API错误减少了1000倍。除了写代码之外，Anthropic还表示Claude在研究类任务上也在进步，并在某些领域接近人类水平的判断能力。公司称，AI系统能够独立可靠处理任务的时长大约每四个月就会翻倍，因此完全自主的递归自我改进可能比许多机构预期来得更快，这也是它呼吁建立可验证、全球性的前沿AI开发暂停机制的原因。

资讯正文

Anthropic 表示，Claude 现在撰写了超过 90% 的代码，并希望全世界拥有一个人工智能暂停按钮

要点

- Anthropic 分享的内部数据显示，Claude 现在撰写了该公司超过 80% 的生产代码，这标志着 Anthropic 构建自身软件的方式发生了重大转变。

- 除了编程之外，Claude 在研究任务上的表现也在提升。Anthropic 表示，该模型在某些领域正接近人类水平的判断能力。

- 鉴于事态发展如此迅速，Anthropic 警告完全自主的 AI 自我改进存在风险，并主张建立一个可验证的、全球性的开发暂停机制。该公司认为，任何单个实验室单方面停摆都还不够。

Anthropic 首次分享内部数据，展示 Claude 据称如何在加速其自身的 AI 开发。与此同时，该公司正推动一种可验证的、全球性的开发暂停选项。

Anthropic 通过其内部机构 Anthropic Institute 发布了一份详尽报告，基于此前未公开的内部数据，展示了 AI 系统在参与自身开发方面已经走了多远。

报告的核心信息是，递归自我改进——即一个 AI 系统完全自主设计出自己的后继版本——尚未实现，但它“可能比大多数机构所准备好的时间来得更早”。

代码产出正在激增，但真实生产力提升尚不清楚

据 Anthropic 介绍，2026 年第二季度，工程师们平均每天交付的代码量是 2024 年的 8 倍。进入生产代码库的代码中，超过 80% 来自 Claude。在 2025 年 2 月 Claude Code 发布之前，这一比例仍只有个位数的低位。

管理层估计，总体占比——包括脚本和实验性代码——超过 90%。文中引述一名员工的话说：“自从我上次亲自写任何代码以来，现在已经大约有 5 个月了。”

Anthropic 承认，以代码行数衡量并不完美。8 倍的增长“几乎肯定夸大了真实的生产力提升”。在 2026 年 3 月一项覆盖 130 名员工的内部调查中，中位数估计认为 Mythos Preview 带来的产出提升为 4 倍。Anthropic 自己认为真实数字略低，并指出近期 METR 的研究显示，开发者往往会高估 AI 带来的生产力增益。

在代码质量方面，报告称：“到 2025 年底，Claude 生成的代码在 Anthropic 内部略逊于人类编写的代码；今天则基本持平，我们预计它会在一年内明显更好。”

根据一次回顾性分析，一个自动化的 Claude 审核器原本可以在过去发生于 claude.ai 的事故中，提前发现约三分之一的漏洞，这些漏洞后来才在进入生产环境前暴露。另一个例子中，Claude 在 2026 年 4 月交付了 800 多项修复，将一类 API 错误减少了 1000 倍。负责该工作的工程师表示，如果由人来完成，需要四年时间。

据 Anthropic 介绍，AI 系统能够独立且可靠处理的任务时长如今大约每四个月就会翻一番，而此前这一周期为七个月。2024 年 3 月，Claude Opus 3 还能处理四分钟量级的任务。一年后，Claude Sonnet 3.7 已能应对一个半小时的任务。如今，Claude Opus 4.6 已经可以处理 12 小时的任务。

METR 发现，Claude Mythos Preview 可以工作“至少”16 小时，而且“达到了 [METR] 在不引入新任务的情况下所能测量的上限”。如果这一趋势持续下去，Anthropic 说，今年内就可能实现处理长达一整天的任务，而到 2027 年，处理一周级别的任务也可能成为现实。

Claude 正在逼近研究中的人类水平判断能力

除了原始代码产出之外，Anthropic 也在展示 AI 辅助研究方面的进展。在一项内部优化测试中，Claude 必须尽可能把训练代码运行得更快，Claude Opus 4 在 2025 年 5 月实现了约 3 倍的平均提速。又过了一年，Mythos Preview 将这一数字提升到了大约 52 倍。与此同时，一名经验丰富的人类研究员需要四到八个小时才能达到 4 倍。

在对 Anthropic 真实研究会话的分析中，公司审视了 129 个时刻：人类开发者在这些时刻走进了次优的迂回路径。Claude Mythos Preview 在其中 64% 的情况下建议了更好的下一步；六个月前，Claude Opus 4.5 这一比例为 51%。Anthropic 将此称为“AI 系统正在更擅长做出 AI 研究所依赖的那类判断的早期信号”。

最后一道鸿沟：“研究品味”与架构问题

据 Anthropic 称，真正的瓶颈在于公司所说的“research taste（研究品味）”：也就是选择正确问题并及早识别死胡同的能力。文中引述一名员工的话称：“截至目前，人类的相对优势仍然在于看到更大的全局，并且思考超出眼前任务的限制。”

在当今的方法之下，这种跨越是否真的可行，仍然是个未解问题。报告写道：“今天的训练方法和架构是否能够解锁这种能力，确实尚不清楚。”

不过，公司也对这一点作了更大的背景说明：像 Transformer 架构这样的范式转变，往往相隔多年才出现一次。在此期间，大多数进展都是渐进式工作，而这恰恰是 Claude 现在已经能很好处理的工作。借用爱迪生那句著名的话——天才是 1% 的灵感加上 99% 的汗水——Anthropic 写道：“我们看到，汗水正变得越来越自动化。”

即便 Claude 永远也发展不出良好的 research taste，对数据的保守解读也意味着一种复合式加速：每位工程师都能贡献比以往多得多的工作，因为人类只需处理个位数百分比的方向性决策。

三种情景，其中两种让 Anthropic 感到担忧

Anthropic 勾勒了三种未来情景。在第一种情景中，趋势停滞。也许指数曲线最终会变成 S 曲线，或者能源和芯片瓶颈拖慢进展。Anthropic 认为这种情况不太可能，因为目前还没有看到任何趋平迹象。

在第二种情景中，效率提升会持续，但人类仍保持方向控制。100人的公司可能做出1万甚至10万人的工作。Anthropic认为自己正走在这条路上，但同时警告说，这也伴随着威权监控和定制化操纵行动等风险。阿姆达尔定律同样会开始发挥作用：在Anthropic，人工代码审查已经变成新的瓶颈。

第三种情景描述的是完全的递归自我改进，在这种情况下，进步的速度只受算力限制。至于在那种情况下，能否解决对齐问题，是“我们最不确定的事情之一”。少数错位案例可能会不断叠加，“变得越来越频繁，却也越来越难以理解，直到我们失去对它们的控制。”

Anthropic提出需要一个可验证的开发暂停

这份报告中最引人注目的段落，涉及Anthropic对放缓AI开发的立场。报告写道：“我们认为，让世界拥有一种选择，可以放慢或暂时暂停前沿AI开发，以便社会结构和对齐研究能够跟上技术进步的步伐，这将是有益的。”

Anthropic表示，如果其他处于前沿或接近前沿的开发者以可验证的方式同样放缓或暂停，它也会放慢或暂停自己的进展。Anthropic Institute计划研究并构建一些系统，使可信的暂停成为可能——也就是让前沿开发者能够验证他人确实已经停止或放慢了开发。

不过，这些障碍极其巨大。训练任务比导弹发射井更容易隐藏。它们的输入具有通用性，而秘密继续推进的诱因也极其强烈：“谁在别人暂停时继续前进，谁就可能继承领先优势。”将其与核武器的《中导条约》相比较似乎顺理成章，但那些核查机制却花了几十年才建立起来。“我们没有那么多时间，”Anthropic写道。

单个实验室单方面暂停，短期内很容易做到，但实际成效会小得多。它只会改变谁领先，而不会形成目前缺失的、更广泛的审议过程。在接下来的几个月里，Anthropic计划组织与政策制定者、研究人员、公民社会以及其他AI公司参与的讨论。

围绕AI暂停的争论多年前就已经出现，但当时这些呼吁并未获得真正动力。回头看，这种推动似乎为时过早，因为那些系统当时实际上能做的事情还很有限。至于这是否只是基于恐惧的营销——批评者已经就Mythos对Anthropic提出过这样的指责——可能只有事后回看时才会变得清楚。

来源与参考

收录于 2026-06-06