Anthropic限制Fable 5涉及高风险科学和网络话题
Ars Technica AI··作者 Kyle Orland
关键信息
Anthropic表示,这些安全措施是故意设置得“比理想状态更严格”的,测试中误拦截率低于5%。公司还称,外部红队在超过1000小时的测试中没有找到通用越狱方法,而且Fable 5的分类器现在覆盖所有化学和生物查询,而不只是生物武器相关问题。
资讯摘要
Anthropic于周二公开发布Claude Fable 5,并将其描述为首个“Mythos-class”模型,称其整体能力已经超过此前的前沿Opus模型。与此同时,公司加入了新的安全护栏,防止公开版本回答涉及网络安全、生物和化学的某些问题。对于这些主题,Fable 5会把用户请求转交给更早的Claude Opus 4.8模型,并提示用户发生了转接。Anthropic表示,公开版与Mythos 5并不完全相同;后者使用相同的底层模型,但只向通过Project Glasswing筛选的一小部分可信网络防御者开放。公司称,它有意把安全措施调得“比理想状态更严格”,因为担心一旦向恶意行为者提供帮助,可能造成严重伤害。
Anthropic还表示,测试中误拦截率低于5%,但这也意味着一些无害请求可能会被拒绝。公司声称,在超过1000小时的红队测试和漏洞赏金计划中,外部团队没有找到通用越狱方法,而且Fable 5抵御自动化越狱的能力也强于早期Claude Opus模型。Anthropic特别担心Mythos 5具备更强的“agentic hacking”能力,但同时指出,英国AI安全研究所最近发现,Mythos Preview在Capture the Flag挑战中的表现与OpenAI的GPT-5.5相近,说明这种能力并不一定是某一个模型独有的突破。公司还在ExploitBench网络安全基准上报告了显著提升,Mythos 5得分为78%,高于Opus 4.8的40%和Mythos Preview的69%。在化学和生物方面,Anthropic表示新的分类器现在适用于所有相关查询,因为即使看似无害的问题,也可能帮助资金充足的恶意行为者开展高风险生物研究。

来源与参考
收录于 2026-06-10