AI评估成本已与训练费用相当

Hugging Face Blog·4月30日 00:45 UTC·作者 Hugging Face Blog

关键信息

Holistic Agent Leaderboard (HAL) 花费4万美元完成21,730次运行；The Well基准测试对一个架构需要960个H100小时，完整四基线测试则需3,840个H100小时。仅支架选择就可能导致相同任务间33倍的成本差异。

资讯摘要

AI评估已成为关键瓶颈，许多情况下已超过训练成本。Holistic Agent Leaderboard (HAL) 花费4万美元评估9个模型在9个基准上的表现，而GAIA单次运行每模型耗资数千美元。即使静态基准如HELM也显示大部分算力用于确认早已能从廉价评估中预测的排名。

然而，代理基准更加混乱：它们依赖支架、噪声大且为确保可靠性需多次运行，压缩技术效果减弱。例如，Exgentic发现相同任务因支架差异导致成本相差33倍。在科学ML中，评估新架构可能需要数百个H100小时，而增加推理时间算力会进一步放大这些成本。

资讯正文

AI评估正成为新的计算瓶颈。

摘要：AI评估的成本已跨越一个阈值，改变了谁能进行评估。最近，综合代理排行榜（HAL）花费约4万美元，在9个模型和9个基准上运行了21,730次代理部署。在前沿模型上运行一次GAIA任务，仅在缓存之前就可能花费2,829美元。Exgentic对代理配置进行全面评估时花费了2.2万美元，发现相同任务的开销相差33倍，这表明架构选择是首要的成本驱动因素。UK-AISI最近将代理步骤扩展到数百万级别，以研究推理时的计算资源消耗。在科学机器学习领域，《Well》评估一个新架构需要约960个H100小时，而完整四基准对比则需3,840个H100小时。

尽管已有压缩技术被提出用于静态基准测试，但新的代理基准测试具有噪声大、对架构敏感且部分可压缩的特点。训练过程中嵌入的基准测试从设计上就是昂贵的，当你试图为这些评估增加可靠性时，重复运行将进一步放大成本。

让静态LLM基准测试变得更便宜

这个问题早在代理出现之前就开始了。当斯坦福CRFM团队在2022年发布HELM时，论文中的每模型成本核算显示：API费用从OpenAI的code-cushman-001的85美元到AI21的J1-Jumbo（178B参数）的10,926美元不等；开源模型的GPU使用时间范围为540至4,200小时，其中BLOOM（176B）和OPT（175B）处于最高端。Perlitz等人（2023）重申了HELM更大的成本模式，IBM研究指出，将Granite-13B放入HELM中“最多可能消耗1,000个GPU小时”。在HELM涵盖的30个模型和42种场景中，报告的总成本和GPU算力加起来约为10万美元。

另一个令人震惊的观察来自Perlitz等人对EleutherAI Pythia检查点的分析：开发人员在模型开发过程中反复支付评估费用。Pythia为每个16个模型（涵盖8种规模）发布了154个检查点，如果单独计数每个模型的检查点，则总共达2,464个，以便社区研究训练动态。在所有这些检查点上运行语言模型评估工具包（LM Evaluation Harness），使得评估变成了训练成本的乘数：Perlitz等人（2024）指出，“评估成本甚至可能超过预训练成本。”对于小型模型而言，评估在整个开发周期中成为主导的计算支出项。当我们扩大推理时的计算规模时，我们也扩大了评估成本。

随后，Perlitz等人问了一个问题：HELM中有多少计算量真正影响了排名？结果令人震惊：减少100至200倍的计算量几乎保留了相同的排序，更大的削减仍有用处，可用于论文分级分析下的粗略分组。Flash-HELM将这一发现转化为一种由粗到精的流程：先运行低成本评估，再仅对顶尖候选者投入高分辨率计算资源。HELM的大部分计算实际上只是确认了本可以通过更廉价方式推断出的排名。

其他研究也从不同角度得出了相同结论。tinyBenchmarks 使用项目反应理论，将 MMLU 数据集从 14,000 个样本压缩到仅 100 个锚点样本，误差约为 2%。Open LLM Leaderboard 则从 29,000 个示例减少到 180 个。Anchor Points 的研究表明，仅需 1 到 30 个样本即可对 GLUE 上的 87 个语言模型/提示组合进行排序，后续研究进一步将数据集规模缩减了 90%。静态基准测试有一个可被利用的弱点：模型之间的差异往往集中在一小部分题目上，因此即使大幅抽样也能维持排名准确性。

但这个技巧在基准测试从静态预测转向代理（agent）评估后显著失效。

代理评估更复杂

来自 Holistic Agent Leaderboard（Kapoor 等，ICLR 2026）的一份详尽公开报告展示了代理评估的情况。HAL 在九个涵盖编程、网页导航、科学任务和客户服务的基准上运行标准化的代理框架，使用统一的支撑结构并集中跟踪成本。其总成本为：在 9 个模型和 9 个基准上进行 21,730 次回放，花费 4 万美元。到 2026 年 4 月，该排行榜已扩展至 26,597 次回放。Ndzomga 的独立复现结果几乎一致：在 242 次代理运行中花费约 4.6 万美元。

在这组总体数字背后，单个基准测试的成本在 HAL 的各项任务之间相差高达四个数量级，在某些单一基准内部则相差三个数量级。

静态时代的工具本应有所帮助，但效果有限。Ndzomga 的中等难度过滤器（选择历史通过率在 30% 至 70% 之间的任务）在保持支撑结构和时间变化下的排名一致性的同时，实现了 2 倍到 3.5 倍的缩减。这有一定价值，但远未达到静态基准测试中可达的 100 倍到 200 倍收益。当每个条目都是带有自身方差的多轮回放时，单个问题不可避免的长轨迹就成了最昂贵的部分。

有些评估本质上就是训练

一些基准测试完全脱离了 API 成本框架，因为它们的评估协议实际上是从头开始训练模型。

《The Well》提供了一个非常有趣的例子。它打包了 16 个科学机器学习数据集，覆盖生物系统、流体动力学、磁流体力学、超新星爆炸、粘弹性不稳定性以及活性物质等领域，总计达 15 TB。根据论文中的 16 个数据集网格设定，该协议几乎没有节省空间：每个基线模型在单张 H100 上训练 12 小时，每（模型，数据集）组合尝试五种学习率，并在四种架构和 16 个数据集上重复执行。这一标准网格扫描消耗了 3,840 个 H100 小时，按文中假设的换算方式估算约为 9,600 美元。一个新的架构仍需约 960 个 H100 小时，即约 2,400 美元。

训练一个神经算子可能只需要一次12小时的H100运行，但要在基准测试中评估它则需要80次这样的训练。这种不对称性正是The Well重要的原因。在机器学习的这个领域，评估所需的计算量比训练高出大约两个数量级，彻底颠覆了传统的深度学习思维模式。

同样的趋势也出现在SciML（科学机器学习）中。PDEBench涵盖11类偏微分方程，并报告不同数据集和模型族在每轮训练中的耗时表，但每个架构的清晰成本取决于所选的训练协议和硬件配置。MLE-Bench（OpenAI）介于代理和训练范式之间：每次在75个Kaggle竞赛中的一个尝试，都会在单张A10 GPU上运行24小时，训练真实的机器学习流水线。论文明确指出：“我们主要实验设置中，每次竞赛尝试耗时24小时 × 75场竞赛 = 1,800 GPU小时的计算资源”，再加上o1-preview每种子代消耗1.275亿输入token和1500万输出token。按每小时A10 GPU价格1.5美元计算，仅GPU成本就达2700美元；若加上o1-preview API使用费用，单次种子运行的成本约为5500美元。三种子代 × 六种模型合计将接近10万美元，还不包括后续评分或重试的额外开销。

METR的RE-Bench将七个研究工程环境中的每一个限制在1到6张H100上运行最多8小时。因此，完整通过整个套件所需时间为56至336 H100小时，这还未计入重复尝试、多个种子或多个代理的情况；而人类基线有71次专家尝试，进一步拉高了隐含预算。由于该基准测试为代理和人类提供相同的墙钟时间计算资源，实时训练过程设定了最低成本门槛——此时，token预算不再能从上方限制成本。

ResearchGym（ICLR 2026）让代理真正执行机器学习研究。五个测试任务（共39个子任务）来自ACL、ICLR和ICML论文，包括ACL亮点、ICML聚光灯、ICLR聚光灯及ICLR口头报告类别，且提出的方法被隐藏。代理必须提出假设、训练模型并超越原作者的基线表现。预算非常紧张：API费用10美元，每项任务在不超过24GB显存的单张GPU上运行12到24小时。完整一轮（5个任务 × 24小时 × 3种子）每位代理消耗约360 GPU小时。

PaperBench的成本变得极为严峻。需要从头复制20篇ICML 2024聚光灯或口头报告论文，依据包含8316个叶节点标准的评分树进行评价。每次部署使用一张A10 GPU运行12小时，每篇论文的数学计算很直接：

- 每次o1 IterativeAgent部署API费用400美元，乘以20篇论文，总评估成本约为8000美元。

- 使用o3-mini裁判每篇论文评分为66美元，整套基准测试为1320美元。

- 若用o1作为裁判，则每篇论文评分成本约830美元。

PaperBench Code-Dev故意不执行代码。这一选择使部署成本减半至约4000美元，评分成本降至每篇10美元（降低85%）。OpenAI构建了这个变体，因为许多团队无法负担完整的基准测试。

AI评估正成为新的计算瓶颈

历史先例是NAS-Bench-101，其表格结构的构建需要超过100个TPU年（TPU-years）的训练时间。如果没有这一一次性投资，每次NAS算法比较的成本将高达1到100多个GPU小时，这会使比较本身比算法本身更昂贵。

随着基准测试越来越贴近真实工作场景，压缩变得愈发困难：静态预测仍有较大节省空间，代理运行（agent rollouts）则减少，而实时训练（in-the-loop training）几乎无节省余地。

可靠性才是昂贵的部分

上述大部分成本仅能获得单次运行的测量结果，统计效力有限。当你在多次运行中评估可靠性时，静态基准、代理基准和训练中基准都会变得更昂贵。

当不再把一次运行当作证据时，代理的可靠性可能急剧下降。最著名的例子来自Yao等人提出的τ-bench，后来被CLEAR（Mehta, 2025）重新诠释：性能可能从单次运行的60%下降到8次一致性运行下的25%。Kapoor等人在《AI代理值得关注》中发现，简单基线代理在HumanEval上以低至50倍的成本帕累托主导复杂SOTA代理（如Reflexion、LDB、LATS）。他们的保留分析显示，在17个基准中有7个没有保留集；在剩下的10个中，只有5个在适当抽象层级上保留了任务，因此总体上有12/17未通过保留标准。HAL论文指出，在原始构造下，“什么都不做”的代理在τ-bench航空任务中通过率达38%。HAL自身的日志分析揭示了TAU-bench少样本模板中的数据泄露问题，导致该模板于2025年12月被移除。

另一项近期关于可靠性的核算来自Rabanser、Kapoor等人的《迈向AI代理可靠性的科学》，他们提出了涵盖一致性、鲁棒性、可预测性和安全性的十二项指标。他们的结论是：“近期能力提升仅带来了可靠性上的微小改进。” HAL内部分析展示了聚合准确率背后隐藏的脆弱性：在SciCode和CORE-Bench上，代理几乎从未在不发生工具调用失败的情况下完成一次运行；在AssistantBench和CORE-Bench上，环境错误在约40%的运行中发生；在失败任务中，代理在最终答案中违反明确基准指令的情况超过60%。

采用HAL风格的统计可信评估（每个单元重复8次），总成本从4万美元上升到约32万美元。同样的倍数作用于PaperBench每轮9500美元的成本，使单一代理评估超过7.5万美元；而在The Well上，多种子协议使每架构成本从约960个H100小时升至数千小时。可靠性对上述每一类成本都起到了放大器的作用。

HAL已暂停新模型评估，转而专注于可靠性：该领域的头条数字仍然噪声过大，而降低这些噪声需要真金白银。以上数字还是下限；许多评估者早已无法负担。

这对机器学习领域意味着什么

评估成本现在已成为一种问责门槛

AI评估正成为新的计算瓶颈

学术团体、人工智能安全研究所和记者如今在尝试独立评估前沿智能体时，首先遇到的是预算限制，而非技术限制。一次GAIA运行的费用可能超过一名研究生一年的差旅预算。单次PaperBench评估（包括大语言模型裁判）大约花费9500美元。对六种模型进行三组种子比较的研究——这种规模的论文研究——总成本会超过15万美元。过去那种‘跑一次基准测试并报告准确率’的做法，其严谨性大致相当于在完美天气下只对一辆车做一次碰撞测试。要超越这种做法，需要的资金超出了当前学术系统分配给研究计算的预算。

计算差距现在也涵盖了评估环节

Ahmed、Wahed 和 Thompson（《科学》2023年）指出，2021年工业界模型的参数量比学术界模型高出29倍，且约70%的AI博士毕业生进入工业界，而这一比例在2004年仅为21%。最初关于‘计算差距’的故事大多忽略了评估环节，因为过去评估相比训练显得很便宜。但现在许多基准测试已逆转了这种关系。一个能微调70亿参数模型的实验室，已不能再假设它能负担得起学界公认的那些基准测试。

无视成本的排行榜助长浪费

当排行榜只报告原始准确率而不包含成本信息时，研究人员可以理性地持续投入更多token，直到数字上升。HAL论文发现，在大多数情况下，更高的推理努力反而会降低准确率：额外的推理计算并不能可靠提升它本应优化的那个指标。帕累托前沿通过将准确率与成本进行对比来修正比较方式。HAL实现了这一点，但大多数排行榜仍未采用。

如果只有前沿实验室的计算预算才能在最高成本的代理型和科学型基准测试上获得统计上可靠的评估结果，那么评估AI系统的社会过程就会集中在那些构建系统本身的实验室内部，导致外部验证变得不完整，甚至完全缺失，除非有人直接补贴这些成本。

不同基准测试的成本概览

所有数据均换算为单次评估的美元成本。GPU计算按每小时H100价格2.5美元、A10价格1.5美元折算；API使用和人工评分费用视情况计入。Pythia（‘评估成本可能超过预训练成本’）、PDEBench（每架构成本取决于选定的训练协议和硬件）以及NAS-Bench-101的100 TPU年建设成本未被纳入，因为它们无法干净地标准化为每次评估的美元数值。

不要再为同一次评估支付两次费用

AI评估正成为新的计算瓶颈

这些数字之所以居高不下，一个原因是该领域不断重复运行相同的评估。前沿实验室支付费用进行HAL全面扫描，学术团队再次付费进行部分复现，审计机构则为它关心的模型版本支付第三次费用，记者也支付第四次来抽查排行榜。这些评估大多覆盖重叠的模型和重叠的基准测试。几乎没有任何底层实例级别的输出能被下一个团队利用，因为结果通常以单一准确率数值的形式出现在PDF、模型卡片表格或隐藏了提示词、种子和结构信息的排行榜条目中。上述成本之所以巨大，部分原因在于整个领域每次都按零售价付费，而其他社区成员即使想复用也无法使用这些成果。

标准化文档是这里最廉价的杠杆，同时也是可靠性研究所需的基本条件。如果一个价值9500美元的PaperBench部署能以统一格式导出完整的评分轨迹，下一组研究相同论文的团队就能把预算花在新的扰动实验上，而不是重复基础测试。如果一个多种子的HAL运行能公开每个轨迹的工具调用日志，代理可靠性研究就能回答单个准确率无法解决的问题。这种节省会叠加：即使高成本基准测试的复用率达到2倍，带来的资金回流也会超过所有压缩技术的总和。

这让我们处于什么位置？

经济规律已经改变。不久之前，训练昂贵而评估便宜。对于耗资5000万到1亿美元训练的前沿大语言模型而言，评估仍看似只是微不足道的尾数，但现在每次基准测试运行的成本已高达数万美元，并常常留下噪声较大的结果。而对于神经算子、机器学习代理和复现基准测试来说，比例已经反转：一次可信的评估成本甚至可能超过训练候选模型本身。

我们已经知道如何让静态评估变得更便宜：Flash-HELM、tinyBenchmarks和Anchor Points都有效。代理评估仅有部分解决方案：中等难度过滤有一定帮助，帕累托前沿排行榜也有一定作用，但整体工具箱仍然薄弱。训练过程中评估没有通用压缩方法；表格预计算和严格的预算限制只能通过缩小基准测试范围来降低成本。可靠性问题更进一步增加了复杂性，因为重复运行推高了每种协议的价格。

该领域仍在谈论能力集才是主要约束，但评估指向的是可靠性才是更紧的瓶颈。治理机构应当希望衡量单次运行准确率与pass^k一致性之间的差距，然而测量这个差距恰恰是最昂贵的。静态基准压缩无法迁移到代理或训练中评估基准，中等难度过滤仍是目前唯一可信的部分替代方案。如今成本盲目的排行榜本质上就是误导性的设计，因为它们奖励额外支出，却不报告这些支出到底带来了什么价值。

评估 now has its own compute budgets, statistical methods, and failure modes. Its price also shapes who gets to evaluate powerful systems in the first place. Whoever can pay for the evaluation gets to write the leaderboard.

评估现在拥有自己的计算预算、统计方法和故障模式。其成本也决定了谁能率先对强大系统进行评估。谁有能力支付评估费用，谁就能决定排行榜的排名。

- Ying et al. (2019). NAS-Bench-101: Towards Reproducible Neural Architecture Search. arXiv:1902.09635.

- Liang et al. (2022). Holistic Evaluation of Language Models. arXiv:2211.09110.

- Takamoto et al. (2022). PDEBench: An Extensive Benchmark for Scientific Machine Learning. arXiv:2210.07182.

- Ahmed, Wahed and Thompson (2023). The growing influence of industry in AI research. Science 379(6635).

- Biderman et al. (2023). Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling. arXiv:2304.01373.

- IBM Research (2023). Efficient LLM Benchmarking. research.ibm.com.

- Perlitz et al. (2023). Efficient Benchmarking of Language Models. arXiv:2308.11696.

- Vivek et al. (2023). Anchor Points: Benchmarking Models with Much Fewer Examples. arXiv:2309.08638.

- Chan et al. (2024). MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering. arXiv:2410.07095.

- Chen et al. (2024). ScienceAgentBench: Toward Rigorous Assessment of Language Agents for Data-Driven Scientific Discovery. arXiv:2410.05080.

- Kapoor et al. (2024). AI Agents That Matter. arXiv:2407.01502.

- Wijk et al. (METR, 2024). RE-Bench: Evaluating Frontier AI R&D Capabilities of Language Model Agents Against Human Experts. arXiv:2411.15114.

- Ohana et al. (2024). The Well: a Large-Scale Collection of Diverse Physics Simulations for Machine Learning. arXiv:2412.00568.

- Polo et al. (2024). tinyBenchmarks: evaluating LLMs with fewer examples. arXiv:2402.14992.

- Siegel et al. (2024). CORE-Bench: Fostering the Credibility of Published Research Through a Computational Reproducibility Agent Benchmark. arXiv:2409.11363.

- Tian et al. (2024). SciCode: A Research Coding Benchmark Curated by Scientists. arXiv:2407.13168.

- Kapoor et al. (2025). Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation. arXiv:2510.11977.

- Li et al. (2025). Adaptive Testing for LLM Evaluation: A Psychometric Alternative to Static Benchmarks. arXiv:2511.04689.

- Mehta (2025). Beyond Accuracy: A Multi-Dimensional Framework for Evaluating Enterprise Agentic AI Systems. arXiv:2511.14136.

- Starace et al. (2025). PaperBench: Evaluating AI's Ability to Replicate AI Research. arXiv:2504.01848.

- UK AISI (2025). Evidence for inference scaling in AI cyber tasks: increased evaluation budgets reveal higher success rates. aisi.gov.uk.

- Bandel et al. (2026). General Agent Evaluation. arXiv:2602.22953.

- Garikaparthi et al. (2026). ResearchGym: Evaluating Language Model Agents on Real-World AI Research. arXiv:2602.15112.

- Ndzomga (2026). Efficient Benchmarking of AI Agents. arXiv:2603.23749.

- Rabanser et al. (2026). Towards a Science of AI Agent Reliability. arXiv:2602.16666.

- Holistic Agent Leaderboard (live). hal.cs.princeton.edu.

@misc{ghosh2026evalbottleneck,

author = {Ghosh, Avijit and Mai, Yifan and Channing, Georgia and Choshen, Leshem},

title = {{AI} evals are becoming the new compute bottleneck},

AI评估正在成为新的计算瓶颈。

随着人工智能模型的复杂性和规模不断增长，评估这些模型性能所需的成本和资源也迅速上升。越来越多的研究人员和企业发现，训练模型所需的算力已经不再是唯一的瓶颈，评估过程本身正逐渐成为限制系统扩展和迭代速度的关键因素。

根据EvalEval联盟在2026年4月发布的研究报告，评估成本的激增不仅体现在硬件使用上，还涉及人力、时间以及数据标注等多方面的投入。这一趋势迫使开发者重新思考模型开发流程，从传统的训练-评估循环转向更高效的自动化评估机制，并探索利用更轻量级的基准测试工具或合成数据来减少对大规模真实数据的依赖。

该报告指出，如果无法有效降低评估开销，未来AI系统的研发效率可能受到显著影响，尤其是在需要高频次迭代和快速验证的场景中，如自动驾驶、医疗诊断和金融风控等领域。

来源与参考

收录于 2026-04-30