MirrorCode测试AI周级编程任务
The Decoder··作者 Matthias Bastian
关键信息
MirrorCode 覆盖 25 个目标程序,涉及 Unix 工具、数据序列化、生物信息学、解释器、静态分析、密码学和压缩,并通过隐藏的端到端测试来验证输出是否完全一致。Epoch AI 表示,其中一次最大规模运行花费 2,600 美元,让 AI 连续工作了 19 天;该基准已开源,包含 25 个程序中的 22 个,以及跨 6 种语言的 132 个任务实例。
资讯摘要
Epoch AI 和 METR 的 MirrorCode 基准旨在测试 AI 系统能否从零重建完整程序,而不是只解决一些小型编程题。该基准包含 25 个目标程序,覆盖多个计算机科学领域,并要求模型精确复现原程序的输出,包括模型开发过程中看不到的隐藏端到端测试。与许多现有软件工程基准不同,MirrorCode 允许更大的推理预算,因为研究者希望它反映人类可能需要数天或数周才能完成的任务。Epoch AI 表示,其中一次最大的运行花费了 2,600 美元,并让模型在没有人工介入的情况下连续工作了 19 天。
当前最亮眼的结果来自 Claude Opus 4.7,它在 14 小时内以 251 美元的成本重写了 gotree,这是一个约 16,000 行 Go 代码的生物信息学工具包,包含 40 多个命令。Claude Opus 4.7 以 56% 的总体解决率领先,GPT-5.5 以 44% 紧随其后,Gemini 3.1 Pro Preview 则为 32%。即使模型没有完全完成任务,它们通常也能通过 90% 以上的测试,但最复杂的大型程序仍然没有任何测试模型能够攻克。Epoch AI 还指出,一年前的领先模型大约只能达到 30% 的成绩,而且大多只能处理更简单的工具类程序,这说明进步很快,但问题还远未被完全解决。

资讯正文
一款 AI 模型为执行单个 MirrorCode 任务连续编程了 19 天,而这项任务的运行成本高达 2,600 美元
要点
- Epoch AI 和 METR 推出了一项名为“MirrorCode”的新基准,要求 AI 模型在无法访问原始源代码的情况下,从零开始重建跨多个计算机科学领域的完整程序。
- Claude Opus 4.7 在该基准中领先,解决率达到 56%,并且只用了 14 小时就成功重实现了一个包含 16,000 行代码的生物信息学工具包。
- 虽然所有受测模型都能可靠处理较小的程序,但迄今为止,没有任何一个模型攻克最复杂的任务。
Epoch AI 新推出的 MirrorCode 基准测试 AI 模型能否独立重建完整程序。Claude Opus 4.7 以 56% 的成绩领先,但所有模型在最复杂的任务上仍然失利。
在 Epoch AI 和 METR 推出的新编程基准 MirrorCode 中,AI 模型必须在无法访问原始源代码的情况下,从零开始重实现完整程序。
这 25 个目标程序涵盖 Unix 工具、数据序列化、生物信息学、解释器、静态分析、密码学和压缩。每个 AI 生成的解决方案都必须与原始程序的输出完全一致,包括模型在开发过程中从未见过的隐藏端到端测试。
与许多其他基准相比,另一个不同之处在于推理预算。开发者写道,现有的软件工程基准通常将每项任务的成本上限设在 1 到 10 美元,即使人类完成同样的工作可能需要数周时间。
据 Epoch AI 介绍,MirrorCode 中规模最大的任务之一单次运行成本达 2,600 美元。AI 连续工作了 19 天,期间完全没有任何人为介入。
Claude Opus 4.7 在 14 小时内重建了一个生物信息学工具包
Epoch AI 表示,AI 目前已经能够处理要求严苛的长期编程任务。最突出的例子来自 Claude Opus 4.7,它重实现了 gotree,这是一个包含大约 16,000 行 Go 代码、拥有 40 多个命令的生物信息学工具包。研究人员称,如果没有 AI 帮助,人类工程师完成同样的工作需要 2 到 17 周。Opus 4.7 用 14 小时完成,成本为 251 美元。
在总体排名中,Claude Opus 4.7 的解决率达到 56%。GPT-5.5 以 44% 紧随其后,Gemini 3.1 Pro Preview 为 32%。即便模型未能完全重实现某个程序,它们通常也能通过 90% 或更多的测试。
最难的任务仍然让所有模型束手无策
尽管取得了进展,MirrorCode 距离被完全攻克还很远。任务分为三类:小型、中型和大型。像 uuid 或 parseqsv 这样的小程序,所有受测模型都能稳定重实现。而最大的任务则击败了所有受测模型。
研究人员仍在看到快速进步。Epoch AI 表示,一年前的领先模型大约只能拿到 30% 的分数,而且只能处理像日历工具这样的更简单程序。
成本趋势并没有清晰的规律。GPT-5.5 在相同任务上的成本是 GPT-5 的三倍,而 Claude Opus 4.7 的运行成本则比 Claude Opus 4.1 便宜三倍。
Epoch AI 已将该脚手架以及 25 个目标程序中的 22 个开源,这些程序覆盖了六种编程语言中的 132 个任务实例。还有 3 个程序保留为私有,用于测试。
研究人员指出了一个重要的注意事项:由于 MirrorCode 以开源程序作为目标,模型在训练过程中可能已经见过原始代码。初步测试表明,“结果并非主要由记忆造成,但我们不能排除记忆会对 AI 性能有所贡献的可能性”,他们写道。
来源与参考
收录于 2026-06-27