Claude Fable 5 登顶基准但价格翻倍
The Decoder··作者 Matthias Bastian
关键信息
Claude Fable 5 在 Intelligence Index 的 10 项基准中有 5 项创下新高,包括 AA-Omniscience、GDPval-AA、Terminal-Bench Hard、Tau2-bench Telecom 和 Humanity's Last Exam。Anthropic 表示,该模型与 Claude Mythos 5 使用相同的基础模型,但针对网络安全、生物、化学和模型蒸馏的安全过滤器会触发回退到 Opus 4.8,这会进一步抬高成本。
资讯摘要
Anthropic 的 Claude Fable 5 被视为公司的新旗舰模型,并以 64.9 分登上 Artificial Analysis Intelligence Index 第一名。这个成绩让它比最强的非 Anthropic 模型 GPT-5.5 领先约 5 分,也让 Anthropic 占据了排行榜前两名。该模型在多个单项基准上也刷新了纪录,尤其是在组成该指数的 10 项测试中拿下了 5 项新高。文中提到的项目包括用于知识和幻觉评估的 AA-Omniscience、面向真实知识工作的 GDPval-AA、用于代理式编码的 Terminal-Bench Hard、工具使用测试 Tau2-bench Telecom,以及 Humanity's Last Exam。
AA-Omniscience 上它拿到 40 分,比此前领先的 Gemini 3.1 Pro Preview 高 7 分,但文章指出,这一领先主要来自更高准确率,而不是更低的幻觉率。Humanity's Last Exam 上,它得分 53%,比 Opus 4.8 高出 7 分多。尽管这些结果看起来亮眼,整体提升并没有那么大:Artificial Analysis 认为它相对 Opus 4.8 的总性能增幅只有 5.7%。更关键的是成本,token 价格翻倍后,一次完整基准跑分的费用接近 10,000 美元,大约是 Opus 4.8 的两倍。

资讯正文
Anthropic 的 Claude Fable 5 以高出 5.7% 的性能,价格却翻了一倍
要点
- Anthropic 最新的 AI 模型 Claude Fable 5 已在 Artificial Analysis Intelligence Index 中登顶,超越了包括 GPT-5.5 在内的竞争对手。
- 与前代 Opus 4.8 相比,整体实测性能在多项基准上的提升为 5.7%。
- 但这点性能提升的代价不小:token 价格已经翻倍,一次完整的基准测试运行如今接近 10,000 美元,是 Opus 4.8 的两倍。
Claude Fable 5 在 Artificial Analysis Intelligence Index 中位居榜首,并在多项基准测试中创下新高。但与前代相比,这一提升可能并不大,而成本却增加了一倍以上。
Anthropic 的新旗舰模型 Claude Fable 5 在 Artificial Analysis Intelligence Index 中得分 64.9,夺得第一名。它与表现最好的非 Anthropic 模型 GPT-5.5 之间相差约 5 分。Anthropic 现在占据了排行榜前两名。
企业需要仔细权衡,哪些使用场景确实值得为大约 5% 的性能提升支付双倍费用。对基准测试持怀疑态度的人会指出,没有任何测试套件能够完全反映现实世界中的能力。不过,AA Index 至少汇总了 10 项评估,因此比任何单一基准都更具参考基础。
具体到地区不同,重度企业使用的月度账单甚至可能抵得上一名经验丰富开发者的成本。Artificial Analysis 的数据清楚表明,经济因素正变得越来越关键,我们关于“Tokeneconomics”的订阅专题也对此做了深入探讨。
在大多数基准测试中都拿下最高分
不过,从原始基准数字来看,Fable 5 依然相当引人注目。它在 Intelligence Index 的 10 项基准中有 5 项创下纪录。在知识与幻觉基准 AA-Omniscience 上,这款模型得分 40 分,比此前领先的 Gemini 3.1 Pro Preview 高出 7 分。这一领先优势主要来自更高的准确率,而不是更低的幻觉率。在幻觉表现上,这款模型处于中游水平。
Artificial Analysis 指出,在开放权重模型中,AA-Omniscience 的准确率与模型规模之间存在强相关性。这暗示 Fable 5 可能比以往任何公开的 Anthropic 模型都更大。
在代理任务上,Fable 5 扩大了 Anthropic 的领先优势。在真实世界知识工作基准 GDPval-AA 上,它的 Elo 达到 1,932,比 Opus 4.8 的 1,890 高出 2.2%。它还在代理编码的 Terminal-Bench Hard 和工具使用的 Tau2-bench Telecom 上位居榜首。
在 Humanity's Last Exam 上,这款模型得分 53%,比 Opus 4.8 高出 7 分以上。一次带 fallback 的 HLE 运行成本约为 2,200 美元,是 Artificial Analysis 测试过的所有模型中最昂贵的。此前的 Opus 系列模型最高为 1,974 美元。
安全过滤器进一步推高成本
Anthropic 表示,Fable 5 与 Claude Mythos 5 使用相同的基础模型,但针对涉及网络安全、生物学、化学以及模型蒸馏的查询增加了额外防护措施。当某个过滤器被触发时,回退机制会将请求重新路由到 Opus 4.8。尽管如此,被重新路由的请求仍会计入计费,从而进一步抬高总成本。
Anthropic表示,受影响的会话不到 5%。但 Artificial Analysis 在其 Intelligence Index 评估中发现,约有 8% 的任务出现了回退路由,主要集中在 GPQA、AA-Omniscience 和 Humanity's Last Exam 的科学类问题上。仅在 HLE 测试中,回退率就达到了 9%。
访问权限有有效期
Fable 5 保持与 Opus 4.8 相同的 100 万 token 上下文窗口。Pro、Max、Team 和 Enterprise 订阅用户可在 6 月 22 日之前使用它,且计费按 Opus 费率的两倍计算。之后,它将改为按信用点计费。这使它的实际价格甚至比 token 费率所显示的还要高。Anthropic 表示,一旦容量允许,将重新恢复订阅访问。
我的同事 Max 最近分析了 Fable 5 的优势和弱点,发现其安全过滤器会拦截大量无害请求,从医学物理问题到基础安全审查都不例外。Anthropic 的系统卡还披露了一种不可见的限流机制:当用户试图构建竞争性的前沿模型时,它会削弱 Fable 的性能,不过 Anthropic 此后已经收回了这一说法。
来源与参考
收录于 2026-06-13