Anthropic限制Fable 5涉及高风险科学和网络话题

Ars Technica AI·6月10日 03:20 UTC·作者 Kyle Orland

关键信息

Anthropic表示，这些安全措施是故意设置得“比理想状态更严格”的，测试中误拦截率低于5%。公司还称，外部红队在超过1000小时的测试中没有找到通用越狱方法，而且Fable 5的分类器现在覆盖所有化学和生物查询，而不只是生物武器相关问题。

资讯摘要

Anthropic于周二公开发布Claude Fable 5，并将其描述为首个“Mythos-class”模型，称其整体能力已经超过此前的前沿Opus模型。与此同时，公司加入了新的安全护栏，防止公开版本回答涉及网络安全、生物和化学的某些问题。对于这些主题，Fable 5会把用户请求转交给更早的Claude Opus 4.8模型，并提示用户发生了转接。Anthropic表示，公开版与Mythos 5并不完全相同；后者使用相同的底层模型，但只向通过Project Glasswing筛选的一小部分可信网络防御者开放。公司称，它有意把安全措施调得“比理想状态更严格”，因为担心一旦向恶意行为者提供帮助，可能造成严重伤害。

Anthropic还表示，测试中误拦截率低于5%，但这也意味着一些无害请求可能会被拒绝。公司声称，在超过1000小时的红队测试和漏洞赏金计划中，外部团队没有找到通用越狱方法，而且Fable 5抵御自动化越狱的能力也强于早期Claude Opus模型。Anthropic特别担心Mythos 5具备更强的“agentic hacking”能力，但同时指出，英国AI安全研究所最近发现，Mythos Preview在Capture the Flag挑战中的表现与OpenAI的GPT-5.5相近，说明这种能力并不一定是某一个模型独有的突破。公司还在ExploitBench网络安全基准上报告了显著提升，Mythos 5得分为78%，高于Opus 4.8的40%和Mythos Preview的69%。在化学和生物方面，Anthropic表示新的分类器现在适用于所有相关查询，因为即使看似无害的问题，也可能帮助资金充足的恶意行为者开展高风险生物研究。

来源与参考

收录于 2026-06-10