Topic

#llm-evaluation

按主题聚合的新闻视图。

Topic Feed

主题：llm-evaluation

共 1 条

Hugging Face Blog·4月21日 18:09 UTC
QIMMA推出以质量为先的阿拉伯语大模型评估方法
QIMMA推出了一个全新的阿拉伯语大模型排行榜，其在评分前对基准测试进行严格验证，揭示了现有评估方法中广泛存在的质量问题。该榜单还包含使用阿拉伯语问题描述的代码评估，并采用AI与人工结合的两阶段验证流程。
#llm-evaluation评分 9.0