谷歌研究发现AI基准测试忽视人类分歧

The Decoder·4月5日 16:31 UTC·作者 Jonathan Kemper

关键信息

理想的标注预算分配取决于测量目标：多数投票准确度适合用更多样本配较少评估者，而捕捉人类多样性则需要更少样本但显著增加每项的评估人数。

资讯摘要

谷歌研究院与罗切斯特理工学院的一项研究指出，当前AI评估标准（每条测试数据仅由3至5名评估者评分）无法充分反映人类意见的多样性。团队利用真实数据集构建模拟器，测试了数千种预算分配方案（样本数量与评估者数量之间的比例）。他们发现，要获得可靠结果，每条数据至少需要10名评估者才能体现真实的群体意见差异，而非仅仅依赖多数共识。

即使总标注量约为1000次，若样本与评估者比例分配不当，也会导致结论不可靠。最优策略因目标不同而异：若衡量准确性（如多数投票），应尽可能多覆盖样本；若想捕捉人类多样性，则需减少样本数、大幅增加每项的评估人数。这要求我们从根本上重新思考AI评估的设计与解读方式。

资讯正文

AI基准测试系统性地忽略了人类之间的分歧，谷歌研究发现

关键要点

- 谷歌研究院与罗切斯特理工学院的一项研究发现，每项测试样本仅使用三到五名人类评估者的方法不足以构建可靠的AI基准测试；至少需要十名评估者。

- 大约1000次标注可以产生可靠结果，但前提是预算要合理分配在测试样本数量和评估者人数之间。如果分配不当，即使资源更多也会导致不可靠的结果。

- 最优分配方式取决于所测量的内容：若采用多数投票评估，则需要大量样本但较少的评估者；而要捕捉人类意见的全部多样性，则需减少样本数量但显著增加每个项目的评估者人数。

一个好的AI基准测试到底需要多少评估者？新研究表明，每项测试样本通常使用的三到五名评估者往往不够，而且如何分配标注预算的重要性不亚于预算本身的大小。

当AI模型进行比较时，人类评估常常决定哪个模型胜出。评估者会判断评论是否具有毒性，或聊天机器人回复是否安全。

问题是，人们对这些判断经常存在分歧。AI研究中的标准做法是收集每个样本三到五次评分，并通过多数票选出一个“正确”答案。这种方法系统性地忽略了人类观点的多样性。

来自谷歌研究院和罗切斯特理工学院的研究人员希望找到一种更聪明的方式来利用有限的评分预算。核心问题在于：是应该尽可能多地评估测试样本，还是应该让少数样本由更多人来评分？

研究人员用一个简单的餐厅类比来描述这一困境。想象一下，让1000位客人每人品尝一道菜：你会得到一个广泛但浅显的快照。现在想象让20位食客对50道菜进行评分：你将获得一幅关于哪些菜真正美味、哪些不好的更丰富的画面。如今的AI基准测试几乎都遵循第一种模式，在测试样本上覆盖很广，但每项只收集少量的人类判断。

测试数千种预算分配方案

为了找到最佳平衡点，团队开发了一个模拟器，它使用真实数据集复现人类评分模式。该模拟器为两个模型生成合成评估数据，其中一个模型以受控方式表现较差。这种设置使得研究人员能够测试在何种条件下能可靠地区分两个模型的表现。

团队将模拟器校准到五个真实数据集，涵盖毒性检测、聊天机器人安全性以及跨文化冒犯性评估。总共测试了数千种不同的总预算和每样本评估者数量的组合。

每样本少于十名评估者并不足够

谷歌的一项研究发现，当前的人工智能基准测试系统性地忽略了人类之间的分歧。

这项研究的结果对现有做法提出了质疑。研究表明，每个测试样本通常由一到五名评分者进行评估，这往往不足以确保模型比较的可重复性。为了获得能够真实反映人类意见范围的统计上可靠的结果，每个样本通常需要超过十名评分者。

实验还表明，通常只需约1000个标注就能获得可靠结果，但前提是预算要在测试样本和评分者之间合理分配。研究人员指出，如果平衡不当，即使预算更大也可能得出不可靠的结论。

测量什么就决定如何花钱

最大的启示是，并不存在适用于所有情况的固定比例。正确的策略完全取决于你试图测量的内容。

如果你使用的是准确率——即检查模型是否与评分者的多数意见一致——那么最有效的方法是尽可能多地使用测试样本，同时每个样本只安排少量评分者。因为准确率只关注最常见的答案，增加评分者数量几乎不会带来显著变化。

但如果你想捕捉人类反应的完整分布（例如使用总变差这样的指标），就需要采取相反的策略：减少测试样本数量，但大幅增加每个样本的评分者人数。这是唯一能准确描绘评分者实际同意或分歧程度的方法。

不同的测试样本可能获得相同的多数投票标签，但其下的响应分布却可能完全不同。在实验中，这种考虑分布差异的指标也仅需最小的总体预算即可产生可靠结果。

来源与参考

收录于 2026-04-06