Hugging Face 增加社区 AI 评测结果

Hugging Face Blog·6月30日 08:00 UTC·作者 Sree Harsha Nelaturu

关键信息

EEE 为评测结果定义了一个统一的 JSON 模式，包含谁执行了评测、测试了哪个模型、如何访问模型、生成设置以及指标含义，并可选提供用于逐样本输出的 JSONL 文件。Hugging Face Community Evals 则通过数据集仓库中的 eval.yaml 注册基准，并把模型分数存放在 .eval_results/*.yaml 中，同时用徽章标明结果是作者提交、社区提交还是独立验证。

资讯摘要

Hugging Face 表示，EvalEval 联盟的 EEE 项目和它自己的 Community Evals 解决的是同一个问题的不同部分：评测结果非常重要，但它们分散在互不兼容的格式里，而且很难一眼判断是否可信。文章称，EEE 于 2026 年 2 月启动，是一个跨机构项目，目标是改进第一方和第三方评测者的结果报告方式；而 Community Evals 也在同月上线，目的是让 Hub 上的基准分数报告更加去中心化。文章认为，评测结果是衡量模型能力、比较模型、分析安全性以及支持治理决策的基础，但它们常常散落在论文、排行榜、博客文章和 harness 日志中。文中举例说，同一个模型和同一个基准可能会得到差异很大的分数，例如 LLaMA 65B 在 MMLU 上就曾被报告为 63.7 和 48.8，而造成差异的原因往往是评测设置没有被充分披露。EEE 通过标准化报告层来解决这个问题，它用一个统一的 JSON 模式记录评测者、模型、访问方式、生成设置以及指标含义，并可选附带用于逐样本输出的 JSONL 文件。

该仓库还提供转换器、示例和贡献指南，Hugging Face 说其数据存储库已经增长到大约 229,000 条评测结果，覆盖超过 22,000 个模型和 2,200 个基准，来源包括 31 种不同的报告格式。文章还指出，如果从零开始重新跑这些评测，成本可能高达几十万美元，因此把这些数据保存并标准化具有明显价值。在 Hugging Face 侧，基准页面由数据集仓库驱动，通过添加 eval.yaml 进行注册，而模型分数则保存在 .eval_results/*.yaml 中，并显示在模型卡和对应排行榜上。通过组织的官方 Hugging Face 账号提交的数据可以在 EvalEval 上显示经过验证的勾选标记；同时，用户现在还能把 EEE 记录转换成 Community Evals 所需的 YAML 文件，从而避免手工维护两套重复记录。

资讯正文

EEE 于 2026 年 2 月作为 EvalEval Coalition 的一个项目发布，这是首次跨机构努力，旨在改进 AI 评测结果由第一方和第三方评测者报告的方式。Hugging Face 也在 2026 年 2 月推出了 Community Evals，以去中心化的方式在 Hub 上报告基准分数。两者结合起来，弥补了用户、研究人员和政策制定者在如何信任、理解以及选择评测和模型方面的空缺。

评测结果是我们衡量模型能力、相互比较模型，以及推理安全和治理的依据，然而它们却分散在各处，而且难以比较。它们存在于论文、排行榜、博客文章以及 harness 日志等不同载体中，并且每一种都有自己的格式。即便是同一个模型在同一个基准上，不同执行者和不同方式得到的分数也常常不同；例如，LLaMA 65B 在 MMLU 上就曾被报告为 63.7 和 48.8 两个分数。这些差异可能源于评测设置，而我们发现这些设置通常没有被报告出来。

EEE 是我们在报告端给出的解决方案。它采用一个用于评测结果的 JSON schema，记录：

- 由谁执行

- 哪个模型

- 通过何种方式访问

- 生成设置

- 该指标实际意味着什么

- [推荐] 用于逐样本输出的配套 JSONL 文件。

这个 schema 是在研究人员和政策研究人员反馈的基础上构建的，并且它可以接收来自任何来源的结果，因此 harness 日志、排行榜抓取结果和论文中的数字最终都会被整理成同一种格式。GitHub 仓库中提供了转换器、示例和贡献指南。自发布以来，Hugging Face 上的数据存储已增长到大约 229,000 条评测结果，涵盖超过 22,000 个模型和 2,200 个基准，来源于 31 种不同的报告格式。仅从头复现这些运行就会花费数十万美元，这也足以说明，一旦有人已经花钱生成了这些数据，就不应让它们四散各处。

在这里了解更多关于该 schema 以及如何贡献的信息。

现在，它还具备了更好的集成和归属标注。贡献者现在可以将 EEE 结果发送到 Hugging Face Community Evals。我们构建了一个转换器，它可以把你的 EEE 记录转换成 Hugging Face 所需的小型 YAML 文件，因此你不必手工维护同一份结果的两种格式。

这是一项面向所有报告或阅读评测结果的人提供的新功能，而不仅仅是现有的 EEE 贡献者。第一方评测者报告自己模型的结果，以及第三方评测者报告他人模型的结果，都可以提交到 Community Evals 和 EEE；而任何浏览 Hub 的人都能看到可追溯到完整记录的结果。当你通过所在组织的官方 Hugging Face 账号提交数据时，你的结果会在 EvalEval 上显示经过验证的对勾，这向读者表明这些数字直接来自源头。本文接下来的部分将介绍 Community Evals 是什么，以及这个转换器做了什么。

Hugging Face Community Evals 分为两个部分。

一个基准存放在数据集仓库中，它通过添加一个 eval.yaml 来完成注册

一旦注册成功，该数据集页面就会收集并展示在 Hugging Face Hub 上针对它报告的每一条分数的排行榜。官方基准测试列表也会随着时间不断增加。

模型的分数存放在模型仓库中的 .eval_results/*.yaml 里。它们会显示在 model card 上，并被送入相应的基准排行榜。模型作者自己的结果，以及任何人通过 pull request 提交的结果，都会被汇总；每个分数都会带有一个徽章，说明它是作者提交、社区提交，还是独立验证的。任何人都可以通过打开一个包含正确 YAML 文件的 PR，给任意模型添加分数，而模型作者可以关闭这些 PR，或在自己的仓库里隐藏结果。

下面是其中一个排行榜的样子：

Hugging Face Hub 上 Humanity's Last Exam 的 Community Evals 排行榜

这就是 EEE 和 Community Evals 配合发挥作用的地方。当你把结果同时发送给两者时，会发生两件事：首先，你的分数会出现在 Hugging Face 模型页面上，并被拉入该基准的排行榜；其次，它会带有一个来源徽章，直接链接回完整的 EEE 记录，那里保存着生成配置、harness 版本、可复现性说明，以及任何实例级数据。

来自 EEE Datastore 的一个 Evaluation（MMLU-Pro），在文件级别与 Hugging Face model card（b）交叉链接。Source EvalEval 徽章会链接到完整的 JSON 记录。

这两个目的地为同一个目标承担不同的工作。Hugging Face 把你的结果放在用户查看模型的地方，并附上指向源数据的链接。EEE 则保留完整的结构化记录，使结果具有可解释性，并在此基础上驱动 Eval Cards。把你的数据同时发送到两边，同一次评估就会同时变得可见且可读，而这正是进行报告的意义所在。

你可以在下面看到这种交叉兼容性。上面 model card 中显示的同一组 GPQA 分数，也会在 Eval Cards 中呈现；Eval Cards 将 EEE 的运行数据与基准和模型元数据组合成一条可解释的记录。还是同一次评估，只是展示界面不同：

Hugging Face 将评估分数存储在模型仓库的 .eval_results/ 下，格式为 YAML。

必需字段只有基准数据集、任务和数值。source 块则是创建指向 EEE 的反向链接的部分。

- dataset:

id: openai/gsm8k

task_id: gsm8k

value: 96.8

date: '2024-07-16'

notes: '8-shot CoT'

source:

url: https://huggingface.co/datasets/evaleval/EEE_datastore/blob/main/flat/objects/<xx>/<yy>/<uuid>.json

name: EvalEval

转换器会根据你现有的记录填入这些内容。它会把 source_data.hf_repo 映射为 dataset.id，把 evaluation_name 映射为 task_id，把 score_details.score 映射为 value，把 evaluation_timestamp 映射为 date，然后再把 datastore 对象 URL 作为 source 链接填入每条记录对应的 EEE JSON。它目前支持四个官方基准：MMLU-Pro、GPQA、HLE 和 GSM8K。

这个转换器做的不只是重塑字段。你把它指向一个 EEE 数据存储集合，它会下载该集合以及它所引用的记录，检查对象哈希值，并找到映射到受支持基准测试的分数。在写入任何内容到线上之前，它会审计现有内容：它会读取模型主分支和所有开放 PR 中的每一个 .eval_results YAML，并按数据集和任务而不是按文件名进行比较。如果某个分数已经存在，就会标记为 already_present；如果存在的是不同的分数，就会标记为 score_conflict；如果模型仓库在 Hub 上无法解析，就会标记为 missing_hf_model。其他一切都会标记为 ready。

在你签字确认之前，任何内容都不会被推送。该工具会写出本地 YAML 预览和一份你可以检查的审阅文件，显示哪些内容已准备就绪、哪些需要注意，并且只有在你输入 OPEN PRS 并输入提交信息之后才会打开 PR。除非你传入 --force，否则重新运行时会复用某个集合的缓存结果。

转换器的审查步骤。被排除的条目（这里是没有匹配 Hub 仓库的模型）会连同其 EEE 来源 URL 一并列出，而准备就绪的 PR 会等待明确的 OPEN PRS 确认。

将你的完整记录提交到 EEE 数据存储。

使用 EEE 只需要再多一步，而这一步大多由转换器自动完成。社区评测转换器工具可以在 GitHub 仓库中找到。要处理一个集合，请执行以下命令：

uv run tools/hf-community-evals/community_evals_converter.py MMLU-Pro \

--datastore evaleval/EEE_datastore@main

查看它生成的预览和报告，然后在准备好提交时输入 OPEN PRS。关于 schema、CLI 和转换器的完整文档可在 evalevalai.com/every_eval_ever/hf-community-evals 查阅。

来源与参考

收录于 2026-07-01