英国AI机构称基准低估了智能体能力

The Decoder·7月4日 00:14 UTC·作者 Matthias Bastian

关键信息

AISI发现，在网络安全任务中，大约8%的任务只有在预算超过1000万tokens时才被解决，有些任务甚至需要5000万tokens或更多。研究还发现，新模型从额外计算资源中获益更大，能力提升体现在可解更难任务、成功更稳定以及所需tokens更少这几个方面。

资讯摘要

英国AI安全研究所（AISI）研究了前沿AI智能体在不同测试时计算预算下的表现，并得出结论：标准的固定预算评测会明显低估模型能力。研究人员在七个基准上测试了模型，发现随着允许使用更多tokens，性能往往会继续提升。在网络安全任务中，大约8%的问题只有在预算超过1000万tokens后才被解决，有些任务甚至需要5000万tokens或更多。在TerminalBench 2.0和SWE-Bench Pro等软件工程基准上，当预算从100万tokens提高到1000万tokens时，成功率大约提升了25%。在Humanity's Last Exam这类数学和学术任务上，提升幅度大约为22%，直到500万tokens仍然有效。

相比之下，HealthBench上的提升较弱，所有模型都在标准预算内达到了平台期，这说明额外计算资源最能帮助模型自行验证结果的场景，比如运行代码或测试漏洞利用。研究还发现，人类专家完成任务所需时间与智能体消耗的tokens数量之间存在幂律关系：一分钟的任务可能要花费智能体成千上万tokens，一周的任务则可能需要数十亿tokens。AISI特别提到一个名为“The Last Ones”的网络安全任务，人类专家大约需要20小时完成，而所有受测模型都无法在少于3000万tokens的预算下解决它。研究最后指出，新一代模型从额外计算资源中获得的收益远高于旧模型，因此基于固定预算得出的前沿能力估计可能落后于真实情况。

资讯正文

英国 AI Security Institute 发现，标准基准系统性低估了 AI 代理实际能做到的事情

要点

- 英国 AI Safety Institute 的一项研究显示，在计算预算受限时，常见基准会系统性低估 AI 代理的能力，这意味着当前评估可能只呈现了这些系统实际能力的一部分。

- 当获得更多计算时间时，模型的成功率最高可提升 25%，其中在网络安全和软件开发任务上的提升尤为明显。

- 研究结果还显示，AI 模型所需的 token 数量与人类专家完成同一任务所需的时间呈比例关系，而新模型从更大的计算预算中获益更大。

英国的 AI Security Institute（AISI）在七项基准上、以不同的计算预算测试了前沿模型。结论是：固定预算上限会系统性低估 AI 代理真正的能力。

AI 代理的表现是一条会随着测试时计算量增加而上升的曲线，所谓测试时计算量，是指代理在执行任务时被允许消耗的处理能力。如果在曲线仍在上升时削减预算，测得的分数反映的是最低能力，而不是最高能力。

这正是 AISI 研究人员在最新工作中试图证明的内容。核心问题是：能力会随着计算量增长到什么程度，这对网络安全意味着什么？

更多计算，整体结果更好

这种效应在各个领域都有体现。在网络安全领域，大约 8% 的任务只有在预算超过 1000 万个 token 时才能被解决；有些任务甚至需要 5000 万个 token。最新模型在超过 1 亿个 token 的预算下还能取得更高分数。

在软件工程任务（TerminalBench 2.0、SWE-Bench Pro）上，当 token 预算从 100 万提升到 1000 万时，成功率上升了约 25%。在数学和学术任务（Humanity's Last Exam）上，提升幅度在预算达到 500 万个 token 时约为 22%。

额外计算并不会在所有场景里带来同等收益。在医疗任务基准 HealthBench 上，所有模型都在标准预算内达到了平台期。AISI 表示，更多计算最能帮助代理验证自身工作的场景，比如运行代码或测试漏洞利用；但在缺少反馈或反馈延迟的场景中，其作用几乎不明显。

人类任务耗时可以预测代理需要多少 token

另一项发现将人类专家完成任务所需的时间与代理的 token 消耗联系了起来。AISI 对研究机构 METR 的 211 个软件工程任务以及 AISI 的 78 个网络安全任务进行分析后发现，这种关系符合幂律分布。一个需要 1 分钟的人类任务，代理可能要花费数千个 token；一个需要 1 小时的任务，可能要消耗数百万个 token；一个需要 1 周的任务，则可能要用到数十亿个 token。

因此，固定的评估预算会截断最漫长、最困难的任务。失败有时意味着预算太紧，而不一定是代理缺乏能力。AISI 指出网络安全任务“The Last Ones”，人类专家大约需要 20 小时才能完成。任何受测模型都无法在少于 3000 万个 token 的情况下解决它。

更新的模型从额外计算中获得更大收益

据这项研究称，较新的模型比旧模型更能从额外算力中获益。随着每一代模型的更新，能力曲线都会上移，并沿着三个维度改变形态：覆盖范围（更难的任务开始变得可解）、可靠性（同一任务被成功完成的频率更高）以及效率（完成同一任务所需的 token 更少）。

一款当前的前沿模型，其时间跨度从在 250 万 token 预算下的约 40 分钟，增长到在 5000 万 token 预算下的约 4 小时。放眼整个前沿水平，当预算从 250 万 token 提升到 5000 万 token 时，时间跨度会从约 2 小时上升到 14 小时。

前沿模型的进步速度比基准测试所显示的更快

AISI 此前估计，在网络安全任务上，前沿模型的时间跨度大约每 4.7 个月翻一番，这一测量是在 250 万 token 的固定预算下进行的。而在 5000 万 token 的预算下，这一趋势大约要陡峭 60%。翻倍不是每 67 到 91 天发生一次，而是每 40 到 50 天发生一次。

AISI 说，估计出的翻倍速度在一定程度上是你所选择的评估预算的产物，而不是前沿进展的固定属性。不过，进展并不均匀。在大约 10% 到 30% 的任务上，新模型的得分实际上比前代模型更差。

更好的测量比戏剧性的预测更重要

对 AISI 来说，最主要的教训在于你如何衡量。“如果我们继续把能力当作一个固定分数，而不是一个随着算力变化的曲线，我们就会继续对这些系统在投入更多资源后能做什么感到惊讶。”

如果用过小的预算测试一个模型，你得到的分数会扭曲有关部署、经济价值和风险的决策。随着每个 token 的成本下降，更高的测试时预算也可能变得更容易获得，这意味着曾经看起来负担不起的能力，随着时间推移可能会变得更便宜、更容易达到。这也使得将算力预算纳入考量的测量方式变得更加重要。

AISI 现在会在多个不同预算下对前沿模型进行测试。“最小信息预算”背后的想法，是检查模型的覆盖范围是否在增加额外算力后仍持续增长；只有在那时，结果才算得上有意义。该团队也在尝试弄清如何根据更便宜的测试运行来预测高预算性能。

来源与参考

收录于 2026-07-04