Claude Fable 5 在 FrontierMath 上领先

The Decoder·6月13日 18:16 UTC·作者 Matthias Bastian

关键信息

所有模型都使用 Epoch AI 的标准脚手架并开启最大推理努力进行测试，这一点很重要，因为基准设置会显著影响结果。文章还提到，Anthropic 早先的 Opus 4.5 在 2026 年初的第 4 层级得分还低于 10%，说明报道中的数学能力提升速度非常快。

资讯摘要

据报道，Anthropic 新模型 Claude Fable 5 在数学推理能力上取得了显著跃升。文章称，它在 FrontierMath 的第 1 到第 3 层级准确率达到 87%，在最难的第 4 层级（v2）达到 88%。这一表现使它在 FrontierMath 最难题目上比 GPT-5.5 高出 13 分。文章强调，所有模型都使用 Epoch AI 的标准脚手架并开启最大推理努力进行测试，这样的设置让比较更具可比性。

文中还将这一结果放在 Anthropic 模型家族快速进步的背景下来看。作为对比，Opus 4.5 在 2026 年初的第 4 层级得分还低于 10%，说明数学性能在很短时间内提升非常快。文章也提到，基准之外的真实推理案例似乎同样在增加，例如一个 OpenAI 模型和 Claude Mythos 都曾解决一个长期存在的 Erdős 问题。总体来看，这篇报道把 Fable 5 描述为前沿模型在极难数学任务上持续进步的信号，但核心仍是一则基准成绩新闻，而不是完整的技术发布。

资讯正文

Claude Fable 5 在 FrontierMath 最难题目上的表现领先 GPT-5.5 13 分

Anthropic 的新模型 Claude Fable 5 在 FrontierMath 基准测试中取得了最高分。根据 Epoch AI 的数据，Fable 5 在第 1 到第 3 档题目上的准确率达到 87%，在最难的第 4 档（v2）上达到 88%。

Anthropic 的模型在很短时间内数学能力提升得非常显著。就在 2026 年初，前代模型 Opus 4.5 在第 4 档上的得分还低于 10%。OpenAI 的 GPT-5.5 在同一档上的表现约为 75%，明显落后于 Fable 5，不过 GPT-5.6 已经在研发之中。

所有模型都在 Epoch AI 的标准脚手架上、以最高推理强度进行测试。FrontierMath 被普遍认为是 AI 数学推理领域最难的基准之一。这些数学上的进步并不只体现在基准测试中，现实世界的案例也在不断增加。最近，OpenAI 的一个模型解决了一个长期悬而未决的 Erdős 问题；Claude Mythos 也做到了这一点。

来源与参考

收录于 2026-06-14