MirrorCode测试AI周级编程任务

The Decoder·6月27日 01:24 UTC·作者 Matthias Bastian

关键信息

MirrorCode 覆盖 25 个目标程序，涉及 Unix 工具、数据序列化、生物信息学、解释器、静态分析、密码学和压缩，并通过隐藏的端到端测试来验证输出是否完全一致。Epoch AI 表示，其中一次最大规模运行花费 2,600 美元，让 AI 连续工作了 19 天；该基准已开源，包含 25 个程序中的 22 个，以及跨 6 种语言的 132 个任务实例。

资讯摘要

Epoch AI 和 METR 的 MirrorCode 基准旨在测试 AI 系统能否从零重建完整程序，而不是只解决一些小型编程题。该基准包含 25 个目标程序，覆盖多个计算机科学领域，并要求模型精确复现原程序的输出，包括模型开发过程中看不到的隐藏端到端测试。与许多现有软件工程基准不同，MirrorCode 允许更大的推理预算，因为研究者希望它反映人类可能需要数天或数周才能完成的任务。Epoch AI 表示，其中一次最大的运行花费了 2,600 美元，并让模型在没有人工介入的情况下连续工作了 19 天。

当前最亮眼的结果来自 Claude Opus 4.7，它在 14 小时内以 251 美元的成本重写了 gotree，这是一个约 16,000 行 Go 代码的生物信息学工具包，包含 40 多个命令。Claude Opus 4.7 以 56% 的总体解决率领先，GPT-5.5 以 44% 紧随其后，Gemini 3.1 Pro Preview 则为 32%。即使模型没有完全完成任务，它们通常也能通过 90% 以上的测试，但最复杂的大型程序仍然没有任何测试模型能够攻克。Epoch AI 还指出，一年前的领先模型大约只能达到 30% 的成绩，而且大多只能处理更简单的工具类程序，这说明进步很快，但问题还远未被完全解决。

资讯正文

一款 AI 模型为执行单个 MirrorCode 任务连续编程了 19 天，而这项任务的运行成本高达 2,600 美元

要点

- Epoch AI 和 METR 推出了一项名为“MirrorCode”的新基准，要求 AI 模型在无法访问原始源代码的情况下，从零开始重建跨多个计算机科学领域的完整程序。

- Claude Opus 4.7 在该基准中领先，解决率达到 56%，并且只用了 14 小时就成功重实现了一个包含 16,000 行代码的生物信息学工具包。

- 虽然所有受测模型都能可靠处理较小的程序，但迄今为止，没有任何一个模型攻克最复杂的任务。

Epoch AI 新推出的 MirrorCode 基准测试 AI 模型能否独立重建完整程序。Claude Opus 4.7 以 56% 的成绩领先，但所有模型在最复杂的任务上仍然失利。

在 Epoch AI 和 METR 推出的新编程基准 MirrorCode 中，AI 模型必须在无法访问原始源代码的情况下，从零开始重实现完整程序。

这 25 个目标程序涵盖 Unix 工具、数据序列化、生物信息学、解释器、静态分析、密码学和压缩。每个 AI 生成的解决方案都必须与原始程序的输出完全一致，包括模型在开发过程中从未见过的隐藏端到端测试。

与许多其他基准相比，另一个不同之处在于推理预算。开发者写道，现有的软件工程基准通常将每项任务的成本上限设在 1 到 10 美元，即使人类完成同样的工作可能需要数周时间。

据 Epoch AI 介绍，MirrorCode 中规模最大的任务之一单次运行成本达 2,600 美元。AI 连续工作了 19 天，期间完全没有任何人为介入。

Claude Opus 4.7 在 14 小时内重建了一个生物信息学工具包

Epoch AI 表示，AI 目前已经能够处理要求严苛的长期编程任务。最突出的例子来自 Claude Opus 4.7，它重实现了 gotree，这是一个包含大约 16,000 行 Go 代码、拥有 40 多个命令的生物信息学工具包。研究人员称，如果没有 AI 帮助，人类工程师完成同样的工作需要 2 到 17 周。Opus 4.7 用 14 小时完成，成本为 251 美元。

在总体排名中，Claude Opus 4.7 的解决率达到 56%。GPT-5.5 以 44% 紧随其后，Gemini 3.1 Pro Preview 为 32%。即便模型未能完全重实现某个程序，它们通常也能通过 90% 或更多的测试。

最难的任务仍然让所有模型束手无策

尽管取得了进展，MirrorCode 距离被完全攻克还很远。任务分为三类：小型、中型和大型。像 uuid 或 parseqsv 这样的小程序，所有受测模型都能稳定重实现。而最大的任务则击败了所有受测模型。

研究人员仍在看到快速进步。Epoch AI 表示，一年前的领先模型大约只能拿到 30% 的分数，而且只能处理像日历工具这样的更简单程序。

成本趋势并没有清晰的规律。GPT-5.5 在相同任务上的成本是 GPT-5 的三倍，而 Claude Opus 4.7 的运行成本则比 Claude Opus 4.1 便宜三倍。

Epoch AI 已将该脚手架以及 25 个目标程序中的 22 个开源，这些程序覆盖了六种编程语言中的 132 个任务实例。还有 3 个程序保留为私有，用于测试。

研究人员指出了一个重要的注意事项：由于 MirrorCode 以开源程序作为目标，模型在训练过程中可能已经见过原始代码。初步测试表明，“结果并非主要由记忆造成，但我们不能排除记忆会对 AI 性能有所贡献的可能性”，他们写道。

来源与参考

收录于 2026-06-27