研究人员批评 Anthropic 的 Fable 安全护栏

TechCrunch AI··作者 Lorenzo Franceschi-Bicchierai

关键信息

当 Fable 标记某个提示时,它会暂停对话并提示该消息因网络安全或生物学主题被拦截,然后回退到 Claude Opus 4.8。Anthropic 还要求网络安全专业人士申请 Cyber Verification Program,获批后可获得更少限制,这与 OpenAI 的 Trusted Access for Cyber 类似。

资讯摘要

Anthropic 发布了 Fable,把它定位为更强大网络安全模型 Mythos 的公开受限版本,但这次发布很快引发了安全研究人员的批评。IBM X-Force 的知名安全研究员 Valentina “Chompie” Palmiotti 表示,Fable 会拒绝任何哪怕只是间接与网络安全相关的请求,甚至连阅读一篇博客文章这类无害任务也会被拦截。只要提示触发系统,Fable 就会暂停对话,并提示其安全措施将该消息标记为网络安全或生物学主题。Anthropic 表示,这些护栏是为了降低模型被用于制造恶意软件或入侵软件的风险,而生物学限制则源于对生物武器的类似担忧。该公司此前在 4 月通过名为 Project Glasswing 的有限项目向少数公司和机构开放了 Mythos,上周又将访问范围扩大到 15 个国家的数百个组织。尽管采取了这种分阶段开放方式,一些研究人员仍认为这些限制显得零散且过于宽泛。

Matt Suiche 说,即使用户只是要求模型编写安全代码,系统也会把它视为网络安全工作,而不是软件工程最佳实践,从而导致能力降级或行为切换。他还指出,这种过滤看起来像是基于关键词的,只要触及“网络安全”这一词汇领域,护栏就可能被触发。另一位研究人员在 X 上抱怨说,即使只是请求代码审查也会触发 Fable 的护栏。Anthropic 目前尚未立即回应这些批评。除了模型内部的限制外,Anthropic 还要求网络安全专业人士申请 Cyber Verification Program,获批后可在使用 Claude 进行网络安全工作时获得更少限制,这一点与 OpenAI 的 Trusted Access for Cyber 类似。

研究人员批评 Anthropic 的 Fable 安全护栏

资讯正文

Anthropic 周二发布了其最新模型 Fable,将其包装为强大的、备受关注的网络安全模型 Mythos 的一个面向公众且功能受限的版本。

但并不是所有人都对这些限制感到满意,许多网络安全研究人员和从业者已经在网上表达了不满。

IBM X-Force 的知名安全研究员 Valentina “Chompie” Palmiotti 说:“[Fable] 会拒绝任何哪怕是稍微沾边网络安全的请求。就连阅读一篇博客文章这样无害的任务也不行。”

当某个提示触发其护栏时,Fable 会暂停聊天,并表示其“安全措施将这条消息标记为与网络安全或生物学主题相关”。

这些护栏的设置,是为了限制 Fable 被用于开发恶意软件或入侵软件的风险——这是 Anthropic 长期以来一直担心的问题。对生物学的限制则源于类似的担忧,即防止其被用于开发生物武器。

这家 AI 巨头在 4 月发布 Mythos 时,将该模型限制在少数几家公司和组织内,这一举措被称为 Project Glasswing,旨在将该模型部署到用于保护关键软件和基础设施的场景中。上周,Anthropic 又将 Mythos 的访问权限扩展到 15 个国家的数百家组织。

但尽管初衷良好,许多网络安全专家仍然对这些限制的草率性质感到不满。资深网络安全人士 Matt Suiche 告诉 TechCrunch:“如果你让它写安全代码,它会把这当作网络安全相关工作,而不是软件工程最佳实践,然后你就会被降级。” 一旦触发护栏,Fable 的回退模型会切换到 Claude Opus 4.8。“这看起来是基于关键词的,所以任何落在‘网络安全’词汇领域里的内容都会触发护栏。”

你是否掌握更多关于黑客如何使用 AI 的信息?或者网络安全公司如何使用 AI 的信息?我们很乐意听取你的消息。请使用非工作设备和网络,通过 Signal 联系 Lorenzo Franceschi-Bicchierai,号码是 +1 917 257 1382,或通过 Telegram 和 Keybase 联系 @lorenzofb,或者发送电子邮件。

但 Suiche 也表示,这种做法是可以理解的,因为现在仍处于早期阶段,他们仍在调整这些护栏。“我确信,随着 Anthropic 和其他前沿模型公司与当前新一代网络安全公司开展更多合作,它们会随着时间推移而演进,”他说,他还是 AI 网络安全初创公司 Tolmo 的技术团队成员。“在做这种发布时,宁可多拦一些人,也不要拦得不够;然后再随着时间推移放宽护栏,这样更好。”

另一位研究人员在 X 上抱怨说,就连“请求代码审查”都会触发 Fable 的护栏。

Anthropic 没有立即回应置评请求。

除了模型内部的护栏之外,Anthropic 还要求网络安全专业人士申请 Cyber Verification Program。如果申请获批,他们在使用 Claude 进行网络安全工作时会受到更少限制。OpenAI 也有一个类似的项目,叫做 Trusted Access for Cyber。

来源与参考

  1. 原始链接
  2. Cybersecurity researchers aren't happy about the guardrails on Anthropic's Fable | TechCrunch

收录于 2026-06-11