Anthropic 撤回隐藏的 Claude 安全限制
Simon Willison··作者 Simon Willison
关键信息
根据更新,从本周开始,被标记的请求将明显回退到 Opus 4.8,这与 Anthropic 对网络安全和生物安全请求采用的可见安全机制一致。在 API 上,被标记的请求也会返回拒绝原因,服务器端回退说明将在接下来的几天内上线。
资讯摘要
Simon Willison 在 2026 年 6 月 11 日的链接博客中,提到了围绕 Anthropic 一项 Claude 安全措施引发的强烈反弹。该政策原本被写在公司的 system card 里,内容是当系统识别到“针对前沿 LLM 开发”的请求时,会悄悄降低回答效果,但不会告知用户。Willison 认为,这种做法可能会伤害研究人员,也指出许多人对其缺乏透明度表示不满。随后,Anthropic 向 WIRED 表示,将调整 Fable 5 的安全措施,让这些限制对用户可见。
公司称自己在这件事上做错了权衡,并为没有把握好平衡而道歉。来自 @ClaudeDevs 的更新进一步说明,被标记的请求今后会明显回退到 Opus 4.8,API 用户也会收到拒绝原因。Anthropic 解释说,隐形安全措施更容易快速上线,也能更精确地针对少量误报,但公司现在认为可见的安全措施更合适,尽管它们更容易被探测,也更需要健壮性。Willison 欢迎撤回“隐藏”这一部分,但也表示,如果 Anthropic 进一步取消这类拒绝类别会更好。
资讯正文
Anthropic 撤回了一项本可能“破坏”使用 Claude 的 AI 研究人员的政策( via )——Maxwell Zeff 在 Wired 上挖到了一条大料:
“我们正在调整 Fable 5 针对前沿 LLM 开发的安全防护,让它们变得可见。”Anthropic 在给 WIRED 的声明中说。“我们做出了错误的取舍,对没能把握好平衡表示歉意。”
围绕 Anthropic 的这项政策已经引发了巨大争议;该政策被藏在他们的 system card 里,规定 Claude Fable/Mythos 会识别“针对前沿 LLM 开发的请求”,并在不通知用户的情况下“降低效果”。
好消息是,他们正在取消这种“不可见”的做法。要是他们把这一类拒绝机制也一并取消,那就更好了。
更新:来自 Twitter 上 @ClaudeDevs 的更多细节:
我们正在推出变更,让 Fable 5 针对前沿 LLM 开发的安全防护变得可见。从本周开始,被标记的请求将明显回退到 Opus 4.8——这与我们对 cyber 和 bio 的安全防护做法相同。每次发生这种情况时,你都会看到提示。在 API 端,任何被标记的请求都会返回拒绝原因(服务器端回退将在接下来几天内推出)。我们希望尽快、安全地把 Fable 5 部署给用户。可见的安全防护可以被探测,因此必须足够稳健,而把它们做到位需要时间。不可见的安全防护可以更有针对性,从而让我们以很少的误报快速发布。基于这个原因,我们选择了不可见的安全防护——而那是错误的取舍。你应该能够看到我们设置了哪些防护,以及原因。我们为没能把握好平衡而道歉。
我们正在推出变更,让 Fable 5 针对前沿 LLM 开发的安全防护变得可见。
从本周开始,被标记的请求将明显回退到 Opus 4.8——这与我们对 cyber 和 bio 的安全防护做法相同。每次发生这种情况时,你都会看到提示。在 API 端,任何被标记的请求都会返回拒绝原因(服务器端回退将在接下来几天内推出)。
我们希望尽快、安全地把 Fable 5 部署给用户。可见的安全防护可以被探测,因此必须足够稳健,而把它们做到位需要时间。不可见的安全防护可以更有针对性,从而让我们以很少的误报快速发布。基于这个原因,我们选择了不可见的安全防护——而那是错误的取舍。你应该能够看到我们设置了哪些防护,以及原因。我们为没能把握好平衡而道歉。
2007
2008
2009
2010
2011
2012
2013
2014
2015
2016
2017
2018
2019
2020
2021
2022
2023
2024
2025
2026
来源与参考
收录于 2026-06-12