QIMMA推出以质量为先的阿拉伯语大模型评估方法

Hugging Face Blog·4月21日 18:09 UTC·作者 Hugging Face Blog

关键信息

验证流程使用两个最先进的大模型（Qwen3-235B-A22B-Instruct 和 DeepSeek-V3-671B）对每个样本进行10分制评分；若任一模型评分低于7分，则标记进入人工审核环节，由熟悉方言和文化背景的母语者最终判断。

资讯摘要

QIMMA قِمّة 是首个将基准质量置于首位的阿拉伯语大模型排行榜。它不直接整合现有基准，而是应用多阶段验证流程剔除低质量或偏倚样本。这一过程揭示出即使是广受认可的阿拉伯语基准也常存在翻译偏差、标注错误和文化错位问题。

最终评测集包含超过52000个样本，覆盖教育、医疗和编程等7个领域，其中99%为原生阿拉伯语内容。通过适配后的HumanEval+和MBPP+实现代码评估，所有结果和逐样本输出均公开，提升可复现性和透明度。

资讯正文

QIMMA قِمّة ⛰：一个以质量为先的阿拉伯语大模型排行榜

QIMMA在评估模型之前会先验证基准测试，确保所报告的分数真实反映大型语言模型（LLM）的阿拉伯语能力。

如果你一直在关注阿拉伯语大模型的评估，可能已经注意到一种日益增长的紧张感：基准测试和排行榜的数量迅速增加，但我们真的在测量我们以为自己在测量的东西吗？

为此，我们创建了QIMMA قمّة（阿拉伯语意为“顶峰”），系统性地回答这个问题。我们没有直接聚合现有的阿拉伯语基准测试并运行模型，而是在任何评估开始前都应用了一套严格的品质验证流程。我们发现的结果令人警醒：即使是广泛使用且广受认可的阿拉伯语基准测试，也存在系统性的质量问题，这些缺陷可能会悄然扭曲评估结果。

本文将逐步介绍QIMMA是什么、我们如何构建它、发现了哪些问题，以及清理数据后模型排名呈现怎样的情况。

阿拉伯语在全球有超过4亿使用者，涵盖多种方言和文化背景，但目前阿拉伯语自然语言处理（NLP）的评估领域仍十分分散。以下几个关键痛点推动了这项工作：

翻译问题。许多阿拉伯语基准测试是从英语翻译而来的，这带来了分布偏移。在英语中显得自然的问题，在阿拉伯语中可能变得别扭或文化错位，导致基准数据无法真实反映阿拉伯语的实际使用场景。

缺乏质量验证。即使原生阿拉伯语的基准测试，也常常在发布时未经过严谨的质量检查。标注不一致、正确答案错误、编码错误以及标签中的文化偏见等问题，已在多个权威资源中被记录下来。

可复现性缺口。评估脚本和逐样本输出很少公开发布，使得审计结果或基于已有成果进一步开发变得困难。

覆盖范围碎片化。现有排行榜仅涵盖孤立的任务和狭窄的领域，难以进行全面的模型评估。

为了说明QIMMA相对于现有平台的位置：

QIMMA是唯一同时具备五个特性的平台：开源、主要包含原生阿拉伯语内容、系统性质量验证、代码评估能力，以及公开每个样本的推理输出。

QIMMA整合了来自14个源基准测试的109个子集，形成一个包含超过52,000个样本的统一评估套件，覆盖7个领域：

这一设计有几个显著特点：

- 99%的内容为原生阿拉伯语。唯一的例外是代码评估部分，因为代码本身具有语言无关性。

- 首个包含代码评估的阿拉伯语排行榜。QIMMA集成了针对阿拉伯语优化的HumanEval+和MBPP+版本，使得能够用阿拉伯语描述的问题来评估编程能力。

- 领域与任务多样性。QIMMA评估现实世界中的实际能力领域，包括教育、治理、医疗、创意表达和软件开发。

这就是QIMMA的方法论核心。在运行任何模型之前，我们对每个基准测试中的每一个样本都执行了多阶段验证流程。

每个样本均由两个最先进的大模型独立评估：

- Qwen3-235B-A22B-Instruct

- DeepSeek-V3-671B

我们选择了两种阿拉伯语能力强大但训练数据构成不同的模型，以确保它们的联合判断比单独任何一个都更可靠。

每个模型根据10分制评分标准对样本进行打分，每项标准采用二元分数（0或1）：

如果任一模型给某个样本的评分低于7/10，则该样本被淘汰。当两个模型都同意淘汰某一样本时，它会立即被移除；但如果仅有一个模型标记了该样本，则进入第二阶段的人工审核。

被标记的样本由母语为阿拉伯语、熟悉当地文化和方言的专家进行审核。人工标注者最终决定：

- 文化背景与地区差异

- 方言细微差别

- 主观理解

- 自动评估可能忽略的细微质量问题

对于文化敏感内容，我们会考虑多个视角，因为“正确性”在阿拉伯地区之间确实存在差异。

该流程揭示了基准测试中反复出现的质量问题——不是孤立错误，而是系统性模式，反映出原始基准构建时存在的缺陷。

代码类基准需要不同的干预措施。我们没有直接丢弃样本，而是对3LM对其改编的HumanEval+和MBPP+中的阿拉伯语问题描述进行了优化，同时完全保留任务标识符、参考解法和测试套件不变。

修改率令人印象深刻，分为五类：

- 语言精炼：统一为自然的现代标准阿拉伯语，并保持一致的祈使语气

- 清晰度提升：修正模糊指令和不明确约束

- 一致性标准化：统一数学术语、标点符号和示例格式

- 结构修正：修复断裂的三重引号字符串、缩进错误和损坏的文本片段

- 语义优化：明确范围是否包含边界值，保留任务意图

QIMMA使用LightEval、EvalPlus和FannOrFlop作为其评估框架，选择这些工具是因为它们具备一致性、多语言社区采纳度以及可复现性。

QIMMA通过问题格式标准化提示模板，共六种类型：

所有提示均为阿拉伯语。对于MizanQA和ArabCulture，保留原始论文中的特定基准系统提示。

截至2026年4月的结果，涵盖前10名已评估模型。访问实时排行榜查看最新排名。

- 规模并不保证最佳性能。前十名模型参数从32B到397B不等，多个中等规模模型在特定领域表现优于更大模型。

- 阿拉伯语专用模型在文化和语言任务上领先。Jais-2-70B-Chat在ArabicMMLU和ArabCulture上排名第一，而Karnak在3LM STEM和ArabLegalQA上领先。

- 编程仍是阿拉伯语专用模型最难的领域。HumanEval+和MBPP+最高得分均来自多语言模型，其中Qwen3.5-397B在两项中均居首位。

在整个榜单（共46个模型）中，清晰但不完美的规模与性能相关性浮现出来。不过也存在一些有趣的例外：

- 阿拉伯语专用模型通常优于同规模的多语言模型。

指令微调模型普遍优于基础版本，仅Qwen3例外。

一些专注于阿拉伯语的小型模型（如Fanar-1-9B和ALLaM-7B）在特定领域表现优于许多更大的多语言模型。

总结QIMMA的特色如下：

🏆 排行榜：QIMMA排行榜

💻 代码：GitHub

📄 论文：《阿拉伯语基准测试可靠吗？QIMMA以质量为先的大型语言模型评估方法》

@misc{alqadi2026arabicbenchmarksreliableqimmas,

title={Are Arabic Benchmarks Reliable? QIMMA's Quality-First Approach to LLM Evaluation},

author={Leen AlQadi and Ahmed Alzubaidi and Mohammed Alyafeai and Hamza Alobeidli and Maitha Alhammadi and Shaikha Alsuwaidi and Omar Alkaabi and Basma El Amel Boussaha and Hakim Hacid},

year={2026},

eprint={2604.03395},

archivePrefix={arXiv},

primaryClass={cs.CL},

url={https://arxiv.org/abs/2604.03395},

}

来源与参考

收录于 2026-04-22