Topic

#llm-benchmarks

按主题聚合的新闻视图。

主题:llm-benchmarks

共 1 条

  1. Claude Fable 5 在 FrontierMath 上领先

    The Decoder·

    Claude Fable 5 在 FrontierMath 上领先

    据报道,Anthropic 的 Claude Fable 5 在 FrontierMath 上取得了当前最强成绩,在第 1 到第 3 层级达到 87%,在最难的第 4 层级(v2)达到 88%。文章称,这让它在 FrontierMath 最 कठिन 的题目上比 GPT-5.5 高出 13 分。