AI基准测试已失效——我们需要什么替代方案

MIT Technology Review AI··作者 Angela Aristidou

关键信息

现实部署表明,即使得分最高的AI模型在融入放射科医生等多人员协作流程时也会失败。所提出的HAIC基准侧重于长期、团队导向的评估,而非孤立任务的准确性。

资讯摘要

几十年来,AI一直通过是否优于人类完成单个任务来评判——比如下棋或医学影像分析——但这种方法忽略了AI的实际使用方式:在团队和组织中经过长时间运行。作者基于在医疗、非营利机构和技术中心的实地调研指出,高分基准测试往往无法预测现实中的有效性。

例如,测试中表现出色的AI工具可能因与本地报告标准不匹配而在医院流程中拖慢效率。解决方案在于转向HAIC基准——不仅评估准确率,还要考察AI在人类团队、决策过程和随时间演化的环境中如何集成。

AI基准测试已失效——我们需要什么替代方案

资讯正文

几十年来,人工智能一直通过机器是否超越人类来评估。从国际象棋到高级数学,从编程到作文写作,AI模型和应用的表现都是与完成任务的个人人类进行对比。

这种框架具有吸引力:在孤立的问题上进行AI与人类的比较,这些问题有明确的对错答案,易于标准化、比较和优化。它能产生排名和头条新闻。

但问题在于:AI几乎从未以基准测试中所模拟的方式使用。尽管研究人员和行业已经开始通过从静态测试转向更动态的评估方法来改进基准测试,这些创新只解决了部分问题。因为它们仍然在人类团队和组织工作流程之外评估AI的表现,而这些才是AI实际表现最终展开的地方。

当AI在真空环境中按任务层面被评估时,它却是在混乱且复杂的环境中使用,通常会与不止一个人互动。它的表现(或缺乏表现)只有在长时间使用后才会显现出来。这种错位让我们误解了AI的能力,忽视了系统性风险,并错误判断其经济和社会影响。

为缓解这一问题,现在是时候从狭隘的方法转向能够评估AI系统在人类团队、工作流程和组织中长期表现的新基准了。自2022年以来,我一直在研究现实世界中AI的部署情况,涵盖英国、美国和亚洲的小型企业以及健康、人道主义、非营利和高等教育机构,还包括伦敦和硅谷领先的人工智能设计生态系统。我提出一种不同的方法,称之为HAIC基准——人类-人工智能、情境特定评估。

当AI失败时会发生什么

对政府和企业而言,AI基准分数看起来比厂商的宣传更加客观。它们是决定一个AI模型或应用是否“足够好”可用于实际部署的关键因素。想象一个AI模型,在最前沿的基准测试中取得了令人印象深刻的技术成绩——准确率98%,速度突破性提升,输出极具说服力。凭借这些结果,组织可能会决定采用该模型,投入大量资金和技术资源进行采购和集成。

但一旦投入使用,基准测试与现实表现之间的差距很快就会显现。例如,许多获得FDA批准的AI模型可以比专家放射科医生更快、更准确地解读医学影像。我在从加州心脏地带到伦敦郊区的医院放射科单元中亲眼目睹工作人员使用评分很高的放射AI应用。反复出现的情况是,他们需要额外时间将AI的输出与医院特有的报告标准和国家特定的监管要求结合起来理解。原本在孤立测试中看似提升生产力的AI工具,在实际操作中反而造成了延误。

AI基准测试已经失效。我们需要的是什么?

很快人们就发现,用于评估医疗AI模型的基准测试并不能反映医疗决策的实际过程。医院依靠多学科团队——放射科医生、肿瘤科医生、物理学家和护士——共同审查患者情况。治疗方案很少基于静态决策;相反,它会随着数天甚至数周内不断出现的新信息而演变。决策往往通过专业标准、患者偏好以及长期患者福祉这一共同目标之间的建设性讨论和权衡产生。难怪即使得分很高的AI模型,在进入真实临床护理中复杂且协作性的流程时,也难以实现承诺的表现。

在我对其他行业的研究中也发现了同样的模式:当AI模型被嵌入到现实工作环境中时,即使它们在标准化测试中表现优异,也无法兑现其承诺的表现。

当高基准分数无法转化为实际表现时,即使是评分最高的AI也会很快被丢进我称之为“AI坟场”的地方。代价是巨大的:时间和金钱都会浪费掉。随着时间推移,这类反复经历会削弱组织对AI的信心,而在医疗等关键领域,还可能侵蚀公众对该技术的整体信任。

当现有基准测试仅提供AI模型在现实世界中可用性的部分甚至误导性信号时,这就造成了监管盲区:监督依据的指标并不反映实际情况。这也使得组织和政府不得不承担在敏感现实环境中测试AI的风险,通常缺乏足够的资源和支持。

如何构建更好的测试方法

为了弥合基准测试与现实表现之间的差距,我们必须关注AI模型将被使用的实际条件。关键问题在于:AI能否作为人类团队中有生产力的一员发挥作用?它能否持续创造集体价值?

通过我在多个行业部署AI的研究,我发现一些组织已经开始有意识地、实验性地转向我所支持的HAIC基准测试。

HAIC基准测试从四个方面重新定义了当前的评估方式:

1. 从个体单一任务表现转向团队和工作流程表现(改变分析单位)

2. 从一次性带有正确/错误答案的测试转向长期影响(扩展时间维度)

3. 从正确性和速度转向组织成果、协调质量及错误可检测性(扩展结果指标)

4. 从孤立输出转向上游和下游后果(系统效应)

在采用这种方法并开始应用的组织中,第一步就是转变分析单位。

例如,在2021年至2024年间,英国某医院系统中,问题从‘医疗AI应用是否提升诊断准确性’扩展为:AI在医院多学科团队中的存在,不仅影响诊断准确性,还如何影响协作与讨论过程。该医院专门评估了使用AI和未使用AI的人类团队在协作与讨论方面的表现。多个利益相关方(包括医院内外)共同确定了衡量指标,例如AI如何影响集体推理、是否能揭示被忽视的考虑因素、是否增强或削弱协作,以及是否改变了既定的风险与合规实践。

这种转变具有根本意义。在高风险场景中,系统层面的影响比任务层面的准确性更重要;这一点同样对经济有深远影响。它可能有助于重新校准目前过度乐观的生产力预期——这些预期主要建立在改善个体任务表现的承诺之上。

一旦奠定这一基础,HAIC(人类-人工智能协作基准)就可以开始引入时间维度。

当前的基准测试类似于学校考试——一次性的、标准化的准确性测试。但真正的专业能力评估方式不同。初级医生和律师是在真实工作流程中、在监督下、通过反馈机制和问责结构持续接受评估的。他们的表现是在特定情境下、随着时间推移来判断的,因为能力本质上是关系性的。如果AI系统旨在与专业人士协同工作,其影响也应以纵向方式评估,反映多次交互中性能的发展变化。

我在一个公益领域的案例研究中观察到了HAIC的这一方面。在18个月的时间里,AI系统在真实工作流程中被持续评估,特别关注其错误是否易于被发现——即人类团队能否轻松识别并纠正这些错误。这种长期的‘错误可检测性记录’使相关组织能够设计并测试针对具体情境的防护机制,从而在不可避免的AI失误情况下依然建立对系统的信任。

更长的时间跨度还能揭示短期基准测试所忽略的系统级后果。一个AI应用可能在狭窄的诊断任务上优于单个医生,却未能改善多学科决策过程。更糟的是,它可能引入系统性偏差:过早地将团队锚定在看似合理但不完整的答案上,增加人们的认知负担,或产生下游效率低下问题,抵消AI使用时带来的任何速度或效率优势。这些连锁效应——目前的基准测试往往无法察觉——正是理解实际影响的核心所在。

AI基准测试已经失效。我们需要的是什么?

HAIC方法确实承诺让基准测试变得更加复杂、资源消耗更大,也更难以标准化。但如果我们继续在脱离现实工作的环境中评估人工智能,我们将无法真正理解它能为我们做什么,不能做什么。要在现实世界中负责任地部署人工智能,我们必须衡量真正重要的东西:不仅要看一个模型单独能做什么,还要看人类和团队在真实世界中与它协作时,它能带来什么,或者会破坏什么。

安吉拉·阿里斯蒂杜是伦敦大学学院教授,同时也是斯坦福数字经济学实验室和斯坦福以人为中心的人工智能研究所的教职研究员。她就人工智能工具在现实生活中的部署及其对公共利益的影响进行演讲、写作和咨询。

深度报道

一项名为“QuitGPT”的活动正呼吁人们取消自己的ChatGPT订阅。

对美国移民与海关执法局(ICE)的抵制正在推动一场更广泛的运动,反对人工智能公司与特朗普总统的关联。

Moltbook堪称AI戏剧的巅峰。

这个病毒式传播的机器人社交网络揭示了我们当下对人工智能的狂热,其意义甚至超过了它对未来代理技术的启示。

OpenAI正在全力以赴打造全自动研究系统。

独家对话OpenAI首席科学家雅库布·帕霍茨基,探讨该公司新的重大挑战及人工智能的未来。

《精灵宝可梦GO》正在为配送机器人提供精准至极的世界视角。

独家报道:Niantic的人工智能衍生公司正利用玩家提供的300亿张城市地标图像,训练新一代世界模型。

来源与参考

  1. 原始链接
  2. AI benchmarks are broken. Here’s what we need instead.

收录于 2026-04-01