Topic

#llm-evaluation

按主题聚合的新闻视图。

主题:llm-evaluation

共 1 条

  1. QIMMA推出以质量为先的阿拉伯语大模型评估方法

    Hugging Face Blog·

    QIMMA推出以质量为先的阿拉伯语大模型评估方法

    QIMMA推出了一个全新的阿拉伯语大模型排行榜,其在评分前对基准测试进行严格验证,揭示了现有评估方法中广泛存在的质量问题。该榜单还包含使用阿拉伯语问题描述的代码评估,并采用AI与人工结合的两阶段验证流程。