QIMMA推出以质量为先的阿拉伯语大模型评估方法

Hugging Face Blog··作者 Hugging Face Blog

关键信息

验证流程使用两个最先进的大模型(Qwen3-235B-A22B-Instruct 和 DeepSeek-V3-671B)对每个样本进行10分制评分;若任一模型评分低于7分,则标记进入人工审核环节,由熟悉方言和文化背景的母语者最终判断。

资讯摘要

QIMMA قِمّة 是首个将基准质量置于首位的阿拉伯语大模型排行榜。它不直接整合现有基准,而是应用多阶段验证流程剔除低质量或偏倚样本。这一过程揭示出即使是广受认可的阿拉伯语基准也常存在翻译偏差、标注错误和文化错位问题。

最终评测集包含超过52000个样本,覆盖教育、医疗和编程等7个领域,其中99%为原生阿拉伯语内容。通过适配后的HumanEval+和MBPP+实现代码评估,所有结果和逐样本输出均公开,提升可复现性和透明度。

QIMMA推出以质量为先的阿拉伯语大模型评估方法

资讯正文

QIMMA قِمّة ⛰:一个以质量为先的阿拉伯语大模型排行榜

QIMMA在评估模型之前会先验证基准测试,确保所报告的分数真实反映大型语言模型(LLM)的阿拉伯语能力。

如果你一直在关注阿拉伯语大模型的评估,可能已经注意到一种日益增长的紧张感:基准测试和排行榜的数量迅速增加,但我们真的在测量我们以为自己在测量的东西吗?

为此,我们创建了QIMMA قمّة(阿拉伯语意为“顶峰”),系统性地回答这个问题。我们没有直接聚合现有的阿拉伯语基准测试并运行模型,而是在任何评估开始前都应用了一套严格的品质验证流程。我们发现的结果令人警醒:即使是广泛使用且广受认可的阿拉伯语基准测试,也存在系统性的质量问题,这些缺陷可能会悄然扭曲评估结果。

本文将逐步介绍QIMMA是什么、我们如何构建它、发现了哪些问题,以及清理数据后模型排名呈现怎样的情况。

阿拉伯语在全球有超过4亿使用者,涵盖多种方言和文化背景,但目前阿拉伯语自然语言处理(NLP)的评估领域仍十分分散。以下几个关键痛点推动了这项工作:

翻译问题。许多阿拉伯语基准测试是从英语翻译而来的,这带来了分布偏移。在英语中显得自然的问题,在阿拉伯语中可能变得别扭或文化错位,导致基准数据无法真实反映阿拉伯语的实际使用场景。

缺乏质量验证。即使原生阿拉伯语的基准测试,也常常在发布时未经过严谨的质量检查。标注不一致、正确答案错误、编码错误以及标签中的文化偏见等问题,已在多个权威资源中被记录下来。

可复现性缺口。评估脚本和逐样本输出很少公开发布,使得审计结果或基于已有成果进一步开发变得困难。

覆盖范围碎片化。现有排行榜仅涵盖孤立的任务和狭窄的领域,难以进行全面的模型评估。

为了说明QIMMA相对于现有平台的位置:

QIMMA是唯一同时具备五个特性的平台:开源、主要包含原生阿拉伯语内容、系统性质量验证、代码评估能力,以及公开每个样本的推理输出。

QIMMA整合了来自14个源基准测试的109个子集,形成一个包含超过52,000个样本的统一评估套件,覆盖7个领域:

这一设计有几个显著特点:

- 99%的内容为原生阿拉伯语。唯一的例外是代码评估部分,因为代码本身具有语言无关性。

- 首个包含代码评估的阿拉伯语排行榜。QIMMA集成了针对阿拉伯语优化的HumanEval+和MBPP+版本,使得能够用阿拉伯语描述的问题来评估编程能力。

- 领域与任务多样性。QIMMA评估现实世界中的实际能力领域,包括教育、治理、医疗、创意表达和软件开发。

这就是QIMMA的方法论核心。在运行任何模型之前,我们对每个基准测试中的每一个样本都执行了多阶段验证流程。

每个样本均由两个最先进的大模型独立评估:

- Qwen3-235B-A22B-Instruct

- DeepSeek-V3-671B

我们选择了两种阿拉伯语能力强大但训练数据构成不同的模型,以确保它们的联合判断比单独任何一个都更可靠。

每个模型根据10分制评分标准对样本进行打分,每项标准采用二元分数(0或1):

如果任一模型给某个样本的评分低于7/10,则该样本被淘汰。当两个模型都同意淘汰某一样本时,它会立即被移除;但如果仅有一个模型标记了该样本,则进入第二阶段的人工审核。

被标记的样本由母语为阿拉伯语、熟悉当地文化和方言的专家进行审核。人工标注者最终决定:

- 文化背景与地区差异

- 方言细微差别

- 主观理解

- 自动评估可能忽略的细微质量问题

对于文化敏感内容,我们会考虑多个视角,因为“正确性”在阿拉伯地区之间确实存在差异。

该流程揭示了基准测试中反复出现的质量问题——不是孤立错误,而是系统性模式,反映出原始基准构建时存在的缺陷。

代码类基准需要不同的干预措施。我们没有直接丢弃样本,而是对3LM对其改编的HumanEval+和MBPP+中的阿拉伯语问题描述进行了优化,同时完全保留任务标识符、参考解法和测试套件不变。

修改率令人印象深刻,分为五类:

- 语言精炼:统一为自然的现代标准阿拉伯语,并保持一致的祈使语气

- 清晰度提升:修正模糊指令和不明确约束

- 一致性标准化:统一数学术语、标点符号和示例格式

- 结构修正:修复断裂的三重引号字符串、缩进错误和损坏的文本片段

- 语义优化:明确范围是否包含边界值,保留任务意图

QIMMA使用LightEval、EvalPlus和FannOrFlop作为其评估框架,选择这些工具是因为它们具备一致性、多语言社区采纳度以及可复现性。

QIMMA通过问题格式标准化提示模板,共六种类型:

所有提示均为阿拉伯语。对于MizanQA和ArabCulture,保留原始论文中的特定基准系统提示。

截至2026年4月的结果,涵盖前10名已评估模型。访问实时排行榜查看最新排名。

- 规模并不保证最佳性能。前十名模型参数从32B到397B不等,多个中等规模模型在特定领域表现优于更大模型。

- 阿拉伯语专用模型在文化和语言任务上领先。Jais-2-70B-Chat在ArabicMMLU和ArabCulture上排名第一,而Karnak在3LM STEM和ArabLegalQA上领先。

- 编程仍是阿拉伯语专用模型最难的领域。HumanEval+和MBPP+最高得分均来自多语言模型,其中Qwen3.5-397B在两项中均居首位。

在整个榜单(共46个模型)中,清晰但不完美的规模与性能相关性浮现出来。不过也存在一些有趣的例外:

- 阿拉伯语专用模型通常优于同规模的多语言模型。

指令微调模型普遍优于基础版本,仅Qwen3例外。

一些专注于阿拉伯语的小型模型(如Fanar-1-9B和ALLaM-7B)在特定领域表现优于许多更大的多语言模型。

总结QIMMA的特色如下:

🏆 排行榜:QIMMA排行榜

💻 代码:GitHub

📄 论文:《阿拉伯语基准测试可靠吗?QIMMA以质量为先的大型语言模型评估方法》

@misc{alqadi2026arabicbenchmarksreliableqimmas,

title={Are Arabic Benchmarks Reliable? QIMMA's Quality-First Approach to LLM Evaluation},

author={Leen AlQadi and Ahmed Alzubaidi and Mohammed Alyafeai and Hamza Alobeidli and Maitha Alhammadi and Shaikha Alsuwaidi and Omar Alkaabi and Basma El Amel Boussaha and Hakim Hacid},

year={2026},

eprint={2604.03395},

archivePrefix={arXiv},

primaryClass={cs.CL},

url={https://arxiv.org/abs/2604.03395},

}

来源与参考

  1. 原始链接
  2. QIMMA قِمّة ⛰: A Quality-First Arabic LLM Leaderboard

收录于 2026-04-22