Claude Fable 5 悄悄限制前沿模型帮助
Simon Willison··作者 Simon Willison
关键信息
Anthropic 表示,这些安全措施只会影响极小一部分流量,估计约为 0.03%,并集中在不到 0.1% 的组织中。公司还称,这些干预不会影响绝大多数编码工作;并且不同于网络安全、生物、化学和蒸馏尝试的防护,用户不会看到明显的拒绝或模型回退。
资讯摘要
2026 年 6 月 10 日,Simon Willison 发布了一篇链接博文,指出 Fable 5 和 Mythos 5 的系统卡里有一项非常引人注目的细节。引文显示,Anthropic 为针对前沿 LLM 开发的请求加入了新的干预措施,包括预训练管线、分布式训练基础设施以及 ML 加速器设计等方向。公司将这一做法解释为对近期模型能够加速自身开发的回应。系统卡同时提到,使用 Claude 帮助开发竞争性模型本就违反 Anthropic 的服务条款。
与直接拒绝请求或切换到其他模型不同,这些安全措施会悄悄降低模型的有效性。Anthropic 表示,相关技术可能包括提示词修改、steering vectors 和 PEFT。系统卡称这些措施对用户不可见,只会影响极小一部分流量。Willison 认为,这似乎是 Anthropic 首次宣布这类静默干预;他也对模型为了延缓可能与 Anthropic 目标相冲突的研究而悄悄“修正”回答表示不安。
资讯正文
2026年6月10日 - Link Blog
如果 Claude Fable 停止帮你,你将永远不会知道(经由)Jonathon Ready 强调了 Fable 5 和 Mythos 5 的 319 页系统卡中一个更令人侧目的细节。下面是较长的一段摘录,重点为我所加:
鉴于近期模型具备加速自身开发的能力,我们已经实施了新的干预措施,以限制 Claude 在针对前沿 LLM 开发的请求中的有效性(例如,构建预训练流水线、分布式训练基础设施或 ML 加速器设计)。使用 Claude 开发竞争模型本就违反我们的服务条款,但通过我们的安全措施来执行这一限制,可以避免加速那些最愿意违反这些条款的行为者。与我们针对网络安全、生物和化学以及蒸馏尝试的干预不同,这些安全措施对用户不可见。Fable 5 不会回退到其他模型。相反,这些安全措施将通过提示修改、引导向量或参数高效微调(PEFT)等方法限制其有效性。这些干预不会影响绝大多数编码工作。我们估计它们会影响约 0.03% 的流量,集中在不到 0.1% 的组织中。
鉴于近期模型具备加速自身开发的能力,我们已经实施了新的干预措施,以限制 Claude 在针对前沿 LLM 开发的请求中的有效性(例如,构建预训练流水线、分布式训练基础设施或 ML 加速器设计)。使用 Claude 开发竞争模型本就违反我们的服务条款,但通过我们的安全措施来执行这一限制,可以避免加速那些最愿意违反这些条款的行为者。
与我们针对网络安全、生物和化学以及蒸馏尝试的干预不同,这些安全措施对用户不可见。Fable 5 不会回退到其他模型。相反,这些安全措施将通过提示修改、引导向量或参数高效微调(PEFT)等方法限制其有效性。这些干预不会影响绝大多数编码工作。我们估计它们会影响约 0.03% 的流量,集中在不到 0.1% 的组织中。
我认为这还是 Anthropic 首次宣布这类静默干预。这个理由对我来说依然相当有科幻感——链接文章谈到了“递归自我改进”。我一点也不喜欢这样的模型:它会悄悄篡改自己对“ML accelerator design”问题的回复,仅仅是为了拖慢那些可能与 Anthropic 自身目标相冲突的研究!
近期文章
Claude Fable 5 的初步印象 - 2026年6月9日
在沙盒中使用 MicroPython 和 WASM 运行 Python 代码 - 2026年6月6日
Claude Opus 4.8:“一个适度但切实的改进” - 2026年5月28日
这是一篇 Simon Willison 的链接帖,于 2026年6月10日发布。
2005
2006
2007
2008
2009
2010
2011
2012
2013
2014
2015
2016
2017
2018
2019
2020
2021
2022
2023
2024
2025
2026
来源与参考
收录于 2026-06-11