研究人员批评 Anthropic 的 Fable 安全护栏
TechCrunch AI··作者 Lorenzo Franceschi-Bicchierai
关键信息
当 Fable 标记某个提示时,它会暂停对话并提示该消息因网络安全或生物学主题被拦截,然后回退到 Claude Opus 4.8。Anthropic 还要求网络安全专业人士申请 Cyber Verification Program,获批后可获得更少限制,这与 OpenAI 的 Trusted Access for Cyber 类似。
资讯摘要
Anthropic 发布了 Fable,把它定位为更强大网络安全模型 Mythos 的公开受限版本,但这次发布很快引发了安全研究人员的批评。IBM X-Force 的知名安全研究员 Valentina “Chompie” Palmiotti 表示,Fable 会拒绝任何哪怕只是间接与网络安全相关的请求,甚至连阅读一篇博客文章这类无害任务也会被拦截。只要提示触发系统,Fable 就会暂停对话,并提示其安全措施将该消息标记为网络安全或生物学主题。Anthropic 表示,这些护栏是为了降低模型被用于制造恶意软件或入侵软件的风险,而生物学限制则源于对生物武器的类似担忧。该公司此前在 4 月通过名为 Project Glasswing 的有限项目向少数公司和机构开放了 Mythos,上周又将访问范围扩大到 15 个国家的数百个组织。尽管采取了这种分阶段开放方式,一些研究人员仍认为这些限制显得零散且过于宽泛。
Matt Suiche 说,即使用户只是要求模型编写安全代码,系统也会把它视为网络安全工作,而不是软件工程最佳实践,从而导致能力降级或行为切换。他还指出,这种过滤看起来像是基于关键词的,只要触及“网络安全”这一词汇领域,护栏就可能被触发。另一位研究人员在 X 上抱怨说,即使只是请求代码审查也会触发 Fable 的护栏。Anthropic 目前尚未立即回应这些批评。除了模型内部的限制外,Anthropic 还要求网络安全专业人士申请 Cyber Verification Program,获批后可在使用 Claude 进行网络安全工作时获得更少限制,这一点与 OpenAI 的 Trusted Access for Cyber 类似。

资讯正文
Anthropic 周二发布了其最新模型 Fable,将其包装为强大的、备受关注的网络安全模型 Mythos 的一个面向公众且功能受限的版本。
但并不是所有人都对这些限制感到满意,许多网络安全研究人员和从业者已经在网上表达了不满。
IBM X-Force 的知名安全研究员 Valentina “Chompie” Palmiotti 说:“[Fable] 会拒绝任何哪怕是稍微沾边网络安全的请求。就连阅读一篇博客文章这样无害的任务也不行。”
当某个提示触发其护栏时,Fable 会暂停聊天,并表示其“安全措施将这条消息标记为与网络安全或生物学主题相关”。
这些护栏的设置,是为了限制 Fable 被用于开发恶意软件或入侵软件的风险——这是 Anthropic 长期以来一直担心的问题。对生物学的限制则源于类似的担忧,即防止其被用于开发生物武器。
这家 AI 巨头在 4 月发布 Mythos 时,将该模型限制在少数几家公司和组织内,这一举措被称为 Project Glasswing,旨在将该模型部署到用于保护关键软件和基础设施的场景中。上周,Anthropic 又将 Mythos 的访问权限扩展到 15 个国家的数百家组织。
但尽管初衷良好,许多网络安全专家仍然对这些限制的草率性质感到不满。资深网络安全人士 Matt Suiche 告诉 TechCrunch:“如果你让它写安全代码,它会把这当作网络安全相关工作,而不是软件工程最佳实践,然后你就会被降级。” 一旦触发护栏,Fable 的回退模型会切换到 Claude Opus 4.8。“这看起来是基于关键词的,所以任何落在‘网络安全’词汇领域里的内容都会触发护栏。”
你是否掌握更多关于黑客如何使用 AI 的信息?或者网络安全公司如何使用 AI 的信息?我们很乐意听取你的消息。请使用非工作设备和网络,通过 Signal 联系 Lorenzo Franceschi-Bicchierai,号码是 +1 917 257 1382,或通过 Telegram 和 Keybase 联系 @lorenzofb,或者发送电子邮件。
但 Suiche 也表示,这种做法是可以理解的,因为现在仍处于早期阶段,他们仍在调整这些护栏。“我确信,随着 Anthropic 和其他前沿模型公司与当前新一代网络安全公司开展更多合作,它们会随着时间推移而演进,”他说,他还是 AI 网络安全初创公司 Tolmo 的技术团队成员。“在做这种发布时,宁可多拦一些人,也不要拦得不够;然后再随着时间推移放宽护栏,这样更好。”
另一位研究人员在 X 上抱怨说,就连“请求代码审查”都会触发 Fable 的护栏。
Anthropic 没有立即回应置评请求。
除了模型内部的护栏之外,Anthropic 还要求网络安全专业人士申请 Cyber Verification Program。如果申请获批,他们在使用 Claude 进行网络安全工作时会受到更少限制。OpenAI 也有一个类似的项目,叫做 Trusted Access for Cyber。
来源与参考
收录于 2026-06-11