英国AI机构称基准低估了智能体能力
The Decoder··作者 Matthias Bastian
关键信息
AISI发现,在网络安全任务中,大约8%的任务只有在预算超过1000万tokens时才被解决,有些任务甚至需要5000万tokens或更多。研究还发现,新模型从额外计算资源中获益更大,能力提升体现在可解更难任务、成功更稳定以及所需tokens更少这几个方面。
资讯摘要
英国AI安全研究所(AISI)研究了前沿AI智能体在不同测试时计算预算下的表现,并得出结论:标准的固定预算评测会明显低估模型能力。研究人员在七个基准上测试了模型,发现随着允许使用更多tokens,性能往往会继续提升。在网络安全任务中,大约8%的问题只有在预算超过1000万tokens后才被解决,有些任务甚至需要5000万tokens或更多。在TerminalBench 2.0和SWE-Bench Pro等软件工程基准上,当预算从100万tokens提高到1000万tokens时,成功率大约提升了25%。在Humanity's Last Exam这类数学和学术任务上,提升幅度大约为22%,直到500万tokens仍然有效。
相比之下,HealthBench上的提升较弱,所有模型都在标准预算内达到了平台期,这说明额外计算资源最能帮助模型自行验证结果的场景,比如运行代码或测试漏洞利用。研究还发现,人类专家完成任务所需时间与智能体消耗的tokens数量之间存在幂律关系:一分钟的任务可能要花费智能体成千上万tokens,一周的任务则可能需要数十亿tokens。AISI特别提到一个名为“The Last Ones”的网络安全任务,人类专家大约需要20小时完成,而所有受测模型都无法在少于3000万tokens的预算下解决它。研究最后指出,新一代模型从额外计算资源中获得的收益远高于旧模型,因此基于固定预算得出的前沿能力估计可能落后于真实情况。

资讯正文
英国 AI Security Institute 发现,标准基准系统性低估了 AI 代理实际能做到的事情
要点
- 英国 AI Safety Institute 的一项研究显示,在计算预算受限时,常见基准会系统性低估 AI 代理的能力,这意味着当前评估可能只呈现了这些系统实际能力的一部分。
- 当获得更多计算时间时,模型的成功率最高可提升 25%,其中在网络安全和软件开发任务上的提升尤为明显。
- 研究结果还显示,AI 模型所需的 token 数量与人类专家完成同一任务所需的时间呈比例关系,而新模型从更大的计算预算中获益更大。
英国的 AI Security Institute(AISI)在七项基准上、以不同的计算预算测试了前沿模型。结论是:固定预算上限会系统性低估 AI 代理真正的能力。
AI 代理的表现是一条会随着测试时计算量增加而上升的曲线,所谓测试时计算量,是指代理在执行任务时被允许消耗的处理能力。如果在曲线仍在上升时削减预算,测得的分数反映的是最低能力,而不是最高能力。
这正是 AISI 研究人员在最新工作中试图证明的内容。核心问题是:能力会随着计算量增长到什么程度,这对网络安全意味着什么?
更多计算,整体结果更好
这种效应在各个领域都有体现。在网络安全领域,大约 8% 的任务只有在预算超过 1000 万个 token 时才能被解决;有些任务甚至需要 5000 万个 token。最新模型在超过 1 亿个 token 的预算下还能取得更高分数。
在软件工程任务(TerminalBench 2.0、SWE-Bench Pro)上,当 token 预算从 100 万提升到 1000 万时,成功率上升了约 25%。在数学和学术任务(Humanity's Last Exam)上,提升幅度在预算达到 500 万个 token 时约为 22%。
额外计算并不会在所有场景里带来同等收益。在医疗任务基准 HealthBench 上,所有模型都在标准预算内达到了平台期。AISI 表示,更多计算最能帮助代理验证自身工作的场景,比如运行代码或测试漏洞利用;但在缺少反馈或反馈延迟的场景中,其作用几乎不明显。
人类任务耗时可以预测代理需要多少 token
另一项发现将人类专家完成任务所需的时间与代理的 token 消耗联系了起来。AISI 对研究机构 METR 的 211 个软件工程任务以及 AISI 的 78 个网络安全任务进行分析后发现,这种关系符合幂律分布。一个需要 1 分钟的人类任务,代理可能要花费数千个 token;一个需要 1 小时的任务,可能要消耗数百万个 token;一个需要 1 周的任务,则可能要用到数十亿个 token。
因此,固定的评估预算会截断最漫长、最困难的任务。失败有时意味着预算太紧,而不一定是代理缺乏能力。AISI 指出网络安全任务“The Last Ones”,人类专家大约需要 20 小时才能完成。任何受测模型都无法在少于 3000 万个 token 的情况下解决它。
更新的模型从额外计算中获得更大收益
据这项研究称,较新的模型比旧模型更能从额外算力中获益。随着每一代模型的更新,能力曲线都会上移,并沿着三个维度改变形态:覆盖范围(更难的任务开始变得可解)、可靠性(同一任务被成功完成的频率更高)以及效率(完成同一任务所需的 token 更少)。
一款当前的前沿模型,其时间跨度从在 250 万 token 预算下的约 40 分钟,增长到在 5000 万 token 预算下的约 4 小时。放眼整个前沿水平,当预算从 250 万 token 提升到 5000 万 token 时,时间跨度会从约 2 小时上升到 14 小时。
前沿模型的进步速度比基准测试所显示的更快
AISI 此前估计,在网络安全任务上,前沿模型的时间跨度大约每 4.7 个月翻一番,这一测量是在 250 万 token 的固定预算下进行的。而在 5000 万 token 的预算下,这一趋势大约要陡峭 60%。翻倍不是每 67 到 91 天发生一次,而是每 40 到 50 天发生一次。
AISI 说,估计出的翻倍速度在一定程度上是你所选择的评估预算的产物,而不是前沿进展的固定属性。不过,进展并不均匀。在大约 10% 到 30% 的任务上,新模型的得分实际上比前代模型更差。
更好的测量比戏剧性的预测更重要
对 AISI 来说,最主要的教训在于你如何衡量。“如果我们继续把能力当作一个固定分数,而不是一个随着算力变化的曲线,我们就会继续对这些系统在投入更多资源后能做什么感到惊讶。”
如果用过小的预算测试一个模型,你得到的分数会扭曲有关部署、经济价值和风险的决策。随着每个 token 的成本下降,更高的测试时预算也可能变得更容易获得,这意味着曾经看起来负担不起的能力,随着时间推移可能会变得更便宜、更容易达到。这也使得将算力预算纳入考量的测量方式变得更加重要。
AISI 现在会在多个不同预算下对前沿模型进行测试。“最小信息预算”背后的想法,是检查模型的覆盖范围是否在增加额外算力后仍持续增长;只有在那时,结果才算得上有意义。该团队也在尝试弄清如何根据更便宜的测试运行来预测高预算性能。
来源与参考
收录于 2026-07-04