Topic

#llm-benchmarks

按主题聚合的新闻视图。

Topic Feed

主题：llm-benchmarks

共 2 条

The Decoder·7月7日 01:14 UTC
前沿模型领先地位更替更快
Epoch AI 的数据表明，GPT-4 在 2023 年 3 月发布后大约连续一年位居 Epoch Capabilities Index（ECI）榜首。自 2024 年 2 月 Claude 3 Opus 取代它以来，榜首已经易手 17 次，而模型平均中位数在榜首位置停留的时间只有大约七周。
#llm-benchmarks评分 6.0
The Decoder·6月13日 18:16 UTC
Claude Fable 5 在 FrontierMath 上领先
据报道，Anthropic 的 Claude Fable 5 在 FrontierMath 上取得了当前最强成绩，在第 1 到第 3 层级达到 87%，在最难的第 4 层级（v2）达到 88%。文章称，这让它在 FrontierMath 最 कठिन 的题目上比 GPT-5.5 高出 13 分。
#llm-benchmarks评分 8.0