Topic
#llm-benchmarks
按主题聚合的新闻视图。
Topic Feed
主题:llm-benchmarks
共 1 条

Claude Fable 5 在 FrontierMath 上领先
据报道,Anthropic 的 Claude Fable 5 在 FrontierMath 上取得了当前最强成绩,在第 1 到第 3 层级达到 87%,在最难的第 4 层级(v2)达到 88%。文章称,这让它在 FrontierMath 最 कठिन 的题目上比 GPT-5.5 高出 13 分。