研究人员批评 Anthropic 的 Fable 安全护栏

TechCrunch AI·6月10日 23:41 UTC·作者 Lorenzo Franceschi-Bicchierai

关键信息

当 Fable 标记某个提示时，它会暂停对话并提示该消息因网络安全或生物学主题被拦截，然后回退到 Claude Opus 4.8。Anthropic 还要求网络安全专业人士申请 Cyber Verification Program，获批后可获得更少限制，这与 OpenAI 的 Trusted Access for Cyber 类似。

资讯摘要

Anthropic 发布了 Fable，把它定位为更强大网络安全模型 Mythos 的公开受限版本，但这次发布很快引发了安全研究人员的批评。IBM X-Force 的知名安全研究员 Valentina “Chompie” Palmiotti 表示，Fable 会拒绝任何哪怕只是间接与网络安全相关的请求，甚至连阅读一篇博客文章这类无害任务也会被拦截。只要提示触发系统，Fable 就会暂停对话，并提示其安全措施将该消息标记为网络安全或生物学主题。Anthropic 表示，这些护栏是为了降低模型被用于制造恶意软件或入侵软件的风险，而生物学限制则源于对生物武器的类似担忧。该公司此前在 4 月通过名为 Project Glasswing 的有限项目向少数公司和机构开放了 Mythos，上周又将访问范围扩大到 15 个国家的数百个组织。尽管采取了这种分阶段开放方式，一些研究人员仍认为这些限制显得零散且过于宽泛。

Matt Suiche 说，即使用户只是要求模型编写安全代码，系统也会把它视为网络安全工作，而不是软件工程最佳实践，从而导致能力降级或行为切换。他还指出，这种过滤看起来像是基于关键词的，只要触及“网络安全”这一词汇领域，护栏就可能被触发。另一位研究人员在 X 上抱怨说，即使只是请求代码审查也会触发 Fable 的护栏。Anthropic 目前尚未立即回应这些批评。除了模型内部的限制外，Anthropic 还要求网络安全专业人士申请 Cyber Verification Program，获批后可在使用 Claude 进行网络安全工作时获得更少限制，这一点与 OpenAI 的 Trusted Access for Cyber 类似。

资讯正文

Anthropic 周二发布了其最新模型 Fable，将其包装为强大的、备受关注的网络安全模型 Mythos 的一个面向公众且功能受限的版本。

但并不是所有人都对这些限制感到满意，许多网络安全研究人员和从业者已经在网上表达了不满。

IBM X-Force 的知名安全研究员 Valentina “Chompie” Palmiotti 说：“[Fable] 会拒绝任何哪怕是稍微沾边网络安全的请求。就连阅读一篇博客文章这样无害的任务也不行。”

当某个提示触发其护栏时，Fable 会暂停聊天，并表示其“安全措施将这条消息标记为与网络安全或生物学主题相关”。

这些护栏的设置，是为了限制 Fable 被用于开发恶意软件或入侵软件的风险——这是 Anthropic 长期以来一直担心的问题。对生物学的限制则源于类似的担忧，即防止其被用于开发生物武器。

这家 AI 巨头在 4 月发布 Mythos 时，将该模型限制在少数几家公司和组织内，这一举措被称为 Project Glasswing，旨在将该模型部署到用于保护关键软件和基础设施的场景中。上周，Anthropic 又将 Mythos 的访问权限扩展到 15 个国家的数百家组织。

但尽管初衷良好，许多网络安全专家仍然对这些限制的草率性质感到不满。资深网络安全人士 Matt Suiche 告诉 TechCrunch：“如果你让它写安全代码，它会把这当作网络安全相关工作，而不是软件工程最佳实践，然后你就会被降级。” 一旦触发护栏，Fable 的回退模型会切换到 Claude Opus 4.8。“这看起来是基于关键词的，所以任何落在‘网络安全’词汇领域里的内容都会触发护栏。”

你是否掌握更多关于黑客如何使用 AI 的信息？或者网络安全公司如何使用 AI 的信息？我们很乐意听取你的消息。请使用非工作设备和网络，通过 Signal 联系 Lorenzo Franceschi-Bicchierai，号码是 +1 917 257 1382，或通过 Telegram 和 Keybase 联系 @lorenzofb，或者发送电子邮件。

但 Suiche 也表示，这种做法是可以理解的，因为现在仍处于早期阶段，他们仍在调整这些护栏。“我确信，随着 Anthropic 和其他前沿模型公司与当前新一代网络安全公司开展更多合作，它们会随着时间推移而演进，”他说，他还是 AI 网络安全初创公司 Tolmo 的技术团队成员。“在做这种发布时，宁可多拦一些人，也不要拦得不够；然后再随着时间推移放宽护栏，这样更好。”

另一位研究人员在 X 上抱怨说，就连“请求代码审查”都会触发 Fable 的护栏。

Anthropic 没有立即回应置评请求。

除了模型内部的护栏之外，Anthropic 还要求网络安全专业人士申请 Cyber Verification Program。如果申请获批，他们在使用 Claude 进行网络安全工作时会受到更少限制。OpenAI 也有一个类似的项目，叫做 Trusted Access for Cyber。

来源与参考

收录于 2026-06-11