Hugging Face 增加社区 AI 评测结果

Hugging Face Blog··作者 Sree Harsha Nelaturu

关键信息

EEE 为评测结果定义了一个统一的 JSON 模式,包含谁执行了评测、测试了哪个模型、如何访问模型、生成设置以及指标含义,并可选提供用于逐样本输出的 JSONL 文件。Hugging Face Community Evals 则通过数据集仓库中的 eval.yaml 注册基准,并把模型分数存放在 .eval_results/*.yaml 中,同时用徽章标明结果是作者提交、社区提交还是独立验证。

资讯摘要

Hugging Face 表示,EvalEval 联盟的 EEE 项目和它自己的 Community Evals 解决的是同一个问题的不同部分:评测结果非常重要,但它们分散在互不兼容的格式里,而且很难一眼判断是否可信。文章称,EEE 于 2026 年 2 月启动,是一个跨机构项目,目标是改进第一方和第三方评测者的结果报告方式;而 Community Evals 也在同月上线,目的是让 Hub 上的基准分数报告更加去中心化。文章认为,评测结果是衡量模型能力、比较模型、分析安全性以及支持治理决策的基础,但它们常常散落在论文、排行榜、博客文章和 harness 日志中。文中举例说,同一个模型和同一个基准可能会得到差异很大的分数,例如 LLaMA 65B 在 MMLU 上就曾被报告为 63.7 和 48.8,而造成差异的原因往往是评测设置没有被充分披露。EEE 通过标准化报告层来解决这个问题,它用一个统一的 JSON 模式记录评测者、模型、访问方式、生成设置以及指标含义,并可选附带用于逐样本输出的 JSONL 文件。

该仓库还提供转换器、示例和贡献指南,Hugging Face 说其数据存储库已经增长到大约 229,000 条评测结果,覆盖超过 22,000 个模型和 2,200 个基准,来源包括 31 种不同的报告格式。文章还指出,如果从零开始重新跑这些评测,成本可能高达几十万美元,因此把这些数据保存并标准化具有明显价值。在 Hugging Face 侧,基准页面由数据集仓库驱动,通过添加 eval.yaml 进行注册,而模型分数则保存在 .eval_results/*.yaml 中,并显示在模型卡和对应排行榜上。通过组织的官方 Hugging Face 账号提交的数据可以在 EvalEval 上显示经过验证的勾选标记;同时,用户现在还能把 EEE 记录转换成 Community Evals 所需的 YAML 文件,从而避免手工维护两套重复记录。

Hugging Face 增加社区 AI 评测结果

资讯正文

EEE 于 2026 年 2 月作为 EvalEval Coalition 的一个项目发布,这是首次跨机构努力,旨在改进 AI 评测结果由第一方和第三方评测者报告的方式。Hugging Face 也在 2026 年 2 月推出了 Community Evals,以去中心化的方式在 Hub 上报告基准分数。两者结合起来,弥补了用户、研究人员和政策制定者在如何信任、理解以及选择评测和模型方面的空缺。

评测结果是我们衡量模型能力、相互比较模型,以及推理安全和治理的依据,然而它们却分散在各处,而且难以比较。它们存在于论文、排行榜、博客文章以及 harness 日志等不同载体中,并且每一种都有自己的格式。即便是同一个模型在同一个基准上,不同执行者和不同方式得到的分数也常常不同;例如,LLaMA 65B 在 MMLU 上就曾被报告为 63.7 和 48.8 两个分数。这些差异可能源于评测设置,而我们发现这些设置通常没有被报告出来。

EEE 是我们在报告端给出的解决方案。它采用一个用于评测结果的 JSON schema,记录:

- 由谁执行

- 哪个模型

- 通过何种方式访问

- 生成设置

- 该指标实际意味着什么

- [推荐] 用于逐样本输出的配套 JSONL 文件。

这个 schema 是在研究人员和政策研究人员反馈的基础上构建的,并且它可以接收来自任何来源的结果,因此 harness 日志、排行榜抓取结果和论文中的数字最终都会被整理成同一种格式。GitHub 仓库中提供了转换器、示例和贡献指南。自发布以来,Hugging Face 上的数据存储已增长到大约 229,000 条评测结果,涵盖超过 22,000 个模型和 2,200 个基准,来源于 31 种不同的报告格式。仅从头复现这些运行就会花费数十万美元,这也足以说明,一旦有人已经花钱生成了这些数据,就不应让它们四散各处。

在这里了解更多关于该 schema 以及如何贡献的信息。

现在,它还具备了更好的集成和归属标注。贡献者现在可以将 EEE 结果发送到 Hugging Face Community Evals。我们构建了一个转换器,它可以把你的 EEE 记录转换成 Hugging Face 所需的小型 YAML 文件,因此你不必手工维护同一份结果的两种格式。

这是一项面向所有报告或阅读评测结果的人提供的新功能,而不仅仅是现有的 EEE 贡献者。第一方评测者报告自己模型的结果,以及第三方评测者报告他人模型的结果,都可以提交到 Community Evals 和 EEE;而任何浏览 Hub 的人都能看到可追溯到完整记录的结果。当你通过所在组织的官方 Hugging Face 账号提交数据时,你的结果会在 EvalEval 上显示经过验证的对勾,这向读者表明这些数字直接来自源头。本文接下来的部分将介绍 Community Evals 是什么,以及这个转换器做了什么。

Hugging Face Community Evals 分为两个部分。

一个基准存放在数据集仓库中,它通过添加一个 eval.yaml 来完成注册

一旦注册成功,该数据集页面就会收集并展示在 Hugging Face Hub 上针对它报告的每一条分数的排行榜。官方基准测试列表也会随着时间不断增加。

模型的分数存放在模型仓库中的 .eval_results/*.yaml 里。它们会显示在 model card 上,并被送入相应的基准排行榜。模型作者自己的结果,以及任何人通过 pull request 提交的结果,都会被汇总;每个分数都会带有一个徽章,说明它是作者提交、社区提交,还是独立验证的。任何人都可以通过打开一个包含正确 YAML 文件的 PR,给任意模型添加分数,而模型作者可以关闭这些 PR,或在自己的仓库里隐藏结果。

下面是其中一个排行榜的样子:

Hugging Face Hub 上 Humanity's Last Exam 的 Community Evals 排行榜

这就是 EEE 和 Community Evals 配合发挥作用的地方。当你把结果同时发送给两者时,会发生两件事:首先,你的分数会出现在 Hugging Face 模型页面上,并被拉入该基准的排行榜;其次,它会带有一个来源徽章,直接链接回完整的 EEE 记录,那里保存着生成配置、harness 版本、可复现性说明,以及任何实例级数据。

来自 EEE Datastore 的一个 Evaluation(MMLU-Pro),在文件级别与 Hugging Face model card(b)交叉链接。Source EvalEval 徽章会链接到完整的 JSON 记录。

这两个目的地为同一个目标承担不同的工作。Hugging Face 把你的结果放在用户查看模型的地方,并附上指向源数据的链接。EEE 则保留完整的结构化记录,使结果具有可解释性,并在此基础上驱动 Eval Cards。把你的数据同时发送到两边,同一次评估就会同时变得可见且可读,而这正是进行报告的意义所在。

你可以在下面看到这种交叉兼容性。上面 model card 中显示的同一组 GPQA 分数,也会在 Eval Cards 中呈现;Eval Cards 将 EEE 的运行数据与基准和模型元数据组合成一条可解释的记录。还是同一次评估,只是展示界面不同:

Hugging Face 将评估分数存储在模型仓库的 .eval_results/ 下,格式为 YAML。

必需字段只有基准数据集、任务和数值。source 块则是创建指向 EEE 的反向链接的部分。

- dataset:

id: openai/gsm8k

task_id: gsm8k

value: 96.8

date: '2024-07-16'

notes: '8-shot CoT'

source:

url: https://huggingface.co/datasets/evaleval/EEE_datastore/blob/main/flat/objects/<xx>/<yy>/<uuid>.json

name: EvalEval

转换器会根据你现有的记录填入这些内容。它会把 source_data.hf_repo 映射为 dataset.id,把 evaluation_name 映射为 task_id,把 score_details.score 映射为 value,把 evaluation_timestamp 映射为 date,然后再把 datastore 对象 URL 作为 source 链接填入每条记录对应的 EEE JSON。它目前支持四个官方基准:MMLU-Pro、GPQA、HLE 和 GSM8K。

这个转换器做的不只是重塑字段。你把它指向一个 EEE 数据存储集合,它会下载该集合以及它所引用的记录,检查对象哈希值,并找到映射到受支持基准测试的分数。在写入任何内容到线上之前,它会审计现有内容:它会读取模型主分支和所有开放 PR 中的每一个 .eval_results YAML,并按数据集和任务而不是按文件名进行比较。如果某个分数已经存在,就会标记为 already_present;如果存在的是不同的分数,就会标记为 score_conflict;如果模型仓库在 Hub 上无法解析,就会标记为 missing_hf_model。其他一切都会标记为 ready。

在你签字确认之前,任何内容都不会被推送。该工具会写出本地 YAML 预览和一份你可以检查的审阅文件,显示哪些内容已准备就绪、哪些需要注意,并且只有在你输入 OPEN PRS 并输入提交信息之后才会打开 PR。除非你传入 --force,否则重新运行时会复用某个集合的缓存结果。

转换器的审查步骤。被排除的条目(这里是没有匹配 Hub 仓库的模型)会连同其 EEE 来源 URL 一并列出,而准备就绪的 PR 会等待明确的 OPEN PRS 确认。

将你的完整记录提交到 EEE 数据存储。

使用 EEE 只需要再多一步,而这一步大多由转换器自动完成。社区评测转换器工具可以在 GitHub 仓库中找到。要处理一个集合,请执行以下命令:

uv run tools/hf-community-evals/community_evals_converter.py MMLU-Pro \

--datastore evaleval/EEE_datastore@main

查看它生成的预览和报告,然后在准备好提交时输入 OPEN PRS。关于 schema、CLI 和转换器的完整文档可在 evalevalai.com/every_eval_ever/hf-community-evals 查阅。

来源与参考

  1. 原始链接
  2. Featuring Every Eval Ever Results on Hugging Face Model Pages

收录于 2026-07-01