Anthropic 撤回隐藏的 Claude 安全限制

Simon Willison·6月11日 11:45 UTC·作者 Simon Willison

关键信息

根据更新，从本周开始，被标记的请求将明显回退到 Opus 4.8，这与 Anthropic 对网络安全和生物安全请求采用的可见安全机制一致。在 API 上，被标记的请求也会返回拒绝原因，服务器端回退说明将在接下来的几天内上线。

资讯摘要

Simon Willison 在 2026 年 6 月 11 日的链接博客中，提到了围绕 Anthropic 一项 Claude 安全措施引发的强烈反弹。该政策原本被写在公司的 system card 里，内容是当系统识别到“针对前沿 LLM 开发”的请求时，会悄悄降低回答效果，但不会告知用户。Willison 认为，这种做法可能会伤害研究人员，也指出许多人对其缺乏透明度表示不满。随后，Anthropic 向 WIRED 表示，将调整 Fable 5 的安全措施，让这些限制对用户可见。

公司称自己在这件事上做错了权衡，并为没有把握好平衡而道歉。来自 @ClaudeDevs 的更新进一步说明，被标记的请求今后会明显回退到 Opus 4.8，API 用户也会收到拒绝原因。Anthropic 解释说，隐形安全措施更容易快速上线，也能更精确地针对少量误报，但公司现在认为可见的安全措施更合适，尽管它们更容易被探测，也更需要健壮性。Willison 欢迎撤回“隐藏”这一部分，但也表示，如果 Anthropic 进一步取消这类拒绝类别会更好。

资讯正文

Anthropic 撤回了一项本可能“破坏”使用 Claude 的 AI 研究人员的政策（ via ）——Maxwell Zeff 在 Wired 上挖到了一条大料：

“我们正在调整 Fable 5 针对前沿 LLM 开发的安全防护，让它们变得可见。”Anthropic 在给 WIRED 的声明中说。“我们做出了错误的取舍，对没能把握好平衡表示歉意。”

围绕 Anthropic 的这项政策已经引发了巨大争议；该政策被藏在他们的 system card 里，规定 Claude Fable/Mythos 会识别“针对前沿 LLM 开发的请求”，并在不通知用户的情况下“降低效果”。

好消息是，他们正在取消这种“不可见”的做法。要是他们把这一类拒绝机制也一并取消，那就更好了。

更新：来自 Twitter 上 @ClaudeDevs 的更多细节：

我们正在推出变更，让 Fable 5 针对前沿 LLM 开发的安全防护变得可见。从本周开始，被标记的请求将明显回退到 Opus 4.8——这与我们对 cyber 和 bio 的安全防护做法相同。每次发生这种情况时，你都会看到提示。在 API 端，任何被标记的请求都会返回拒绝原因（服务器端回退将在接下来几天内推出）。我们希望尽快、安全地把 Fable 5 部署给用户。可见的安全防护可以被探测，因此必须足够稳健，而把它们做到位需要时间。不可见的安全防护可以更有针对性，从而让我们以很少的误报快速发布。基于这个原因，我们选择了不可见的安全防护——而那是错误的取舍。你应该能够看到我们设置了哪些防护，以及原因。我们为没能把握好平衡而道歉。

我们正在推出变更，让 Fable 5 针对前沿 LLM 开发的安全防护变得可见。

从本周开始，被标记的请求将明显回退到 Opus 4.8——这与我们对 cyber 和 bio 的安全防护做法相同。每次发生这种情况时，你都会看到提示。在 API 端，任何被标记的请求都会返回拒绝原因（服务器端回退将在接下来几天内推出）。

我们希望尽快、安全地把 Fable 5 部署给用户。可见的安全防护可以被探测，因此必须足够稳健，而把它们做到位需要时间。不可见的安全防护可以更有针对性，从而让我们以很少的误报快速发布。基于这个原因，我们选择了不可见的安全防护——而那是错误的取舍。你应该能够看到我们设置了哪些防护，以及原因。我们为没能把握好平衡而道歉。

2007

2008

2009

2010

2011

2012

2013

2014

2015

2016

2017

2018

2019

2020

2021

2022

2023

2024

2025

2026

来源与参考

收录于 2026-06-12