Claude Fable 5 在 FrontierMath 上领先
The Decoder··作者 Matthias Bastian
关键信息
所有模型都使用 Epoch AI 的标准脚手架并开启最大推理努力进行测试,这一点很重要,因为基准设置会显著影响结果。文章还提到,Anthropic 早先的 Opus 4.5 在 2026 年初的第 4 层级得分还低于 10%,说明报道中的数学能力提升速度非常快。
资讯摘要
据报道,Anthropic 新模型 Claude Fable 5 在数学推理能力上取得了显著跃升。文章称,它在 FrontierMath 的第 1 到第 3 层级准确率达到 87%,在最难的第 4 层级(v2)达到 88%。这一表现使它在 FrontierMath 最难题目上比 GPT-5.5 高出 13 分。文章强调,所有模型都使用 Epoch AI 的标准脚手架并开启最大推理努力进行测试,这样的设置让比较更具可比性。
文中还将这一结果放在 Anthropic 模型家族快速进步的背景下来看。作为对比,Opus 4.5 在 2026 年初的第 4 层级得分还低于 10%,说明数学性能在很短时间内提升非常快。文章也提到,基准之外的真实推理案例似乎同样在增加,例如一个 OpenAI 模型和 Claude Mythos 都曾解决一个长期存在的 Erdős 问题。总体来看,这篇报道把 Fable 5 描述为前沿模型在极难数学任务上持续进步的信号,但核心仍是一则基准成绩新闻,而不是完整的技术发布。

资讯正文
Claude Fable 5 在 FrontierMath 最难题目上的表现领先 GPT-5.5 13 分
Anthropic 的新模型 Claude Fable 5 在 FrontierMath 基准测试中取得了最高分。根据 Epoch AI 的数据,Fable 5 在第 1 到第 3 档题目上的准确率达到 87%,在最难的第 4 档(v2)上达到 88%。
Anthropic 的模型在很短时间内数学能力提升得非常显著。就在 2026 年初,前代模型 Opus 4.5 在第 4 档上的得分还低于 10%。OpenAI 的 GPT-5.5 在同一档上的表现约为 75%,明显落后于 Fable 5,不过 GPT-5.6 已经在研发之中。
所有模型都在 Epoch AI 的标准脚手架上、以最高推理强度进行测试。FrontierMath 被普遍认为是 AI 数学推理领域最难的基准之一。这些数学上的进步并不只体现在基准测试中,现实世界的案例也在不断增加。最近,OpenAI 的一个模型解决了一个长期悬而未决的 Erdős 问题;Claude Mythos 也做到了这一点。
来源与参考
收录于 2026-06-14