从GPT-2到Claude Mythos:因安全问题被搁置的AI模型

The Decoder··作者 Maximilian Schreiner

关键信息

Claude Mythos仅限于约40家组织使用,包括亚马逊、谷歌、微软及多家网络安全公司,这些机构均参与了名为Project Glasswing的计划。目前该模型仅用于防御性网络安全目的。

资讯摘要

七年前,OpenAI因担忧滥用而暂不发布GPT-2模型;如今Anthropic对新模型Claude Mythos Preview也采取了类似做法。与GPT-2最终因未造成重大危害而全面发布不同,这次有实证支持:AI发现了数千个真实漏洞。

Anthropic正通过一个由科技巨头和开源基金会组成的联盟,将该模型限定用于防御性网络安全。这种做法不同于过去行业普遍采用的安全层(如RLHF)或红队测试后再发布的模式,而是体现了更成熟的认识:某些模型必须从一开始就加以控制,而非事后监管。

从GPT-2到Claude Mythos:因安全问题被搁置的AI模型

资讯正文

从GPT-2到Claude Mythos:被认定为‘过于危险而无法发布’的AI模型卷土重来

七年前,OpenAI宣布其语言模型GPT-2‘过于危险,无法发布’。当时整个行业都嗤之以鼻。如今Anthropic公司再次采取类似举措,发布了Claude Mythos Preview版本——但这一次,他们手中有了真实证据:一个几乎无人能审查的AI发现了数千个操作系统和浏览器中的漏洞。

2019年2月,OpenAI推出了一款语言模型,它生成的虚假新闻如此逼真,以至于公司决定不对外发布。AI研究界一部分人认为这是明智的预防措施,另一部分人则将其视为公关噱头。OpenAI当时没有放出完整的15亿参数模型,理由是文本生成技术进步显著,并担忧可能被滥用。

在首次公告后的六个月里,OpenAI政策团队发布了一份报告,评估该决定的影响。到了同年5月,OpenAI调整了原立场,启动了‘分阶段发布’策略——逐步推出越来越大的模型版本。最终,完整的GPT-2于2019年11月面世,因为人们担心的危害从未发生,这或许部分得益于替代方案已经出现。

在OpenAI负责这一平衡工作的沟通负责人是杰克·克拉克(Jack Clark),时任该公司政策主管。2019年6月,克拉克在美国国会作证时表示,控制文本输出的能力仍有限,但会随着科学界更广泛的研究而改善。他将分阶段发布描述为一种负责任规范的新原型。

行业选择了护栏而非封存

这种渐进式发布的理念并未流行起来。相反,业界选择了一个不同的安全应对方式:不要封锁,而是先加固再发布。发布前进行红队测试、安全评估、系统卡片、负责任扩展政策、漏洞赏金计划以及基于RLHF的安全层,逐渐成为标准做法。GPT-3通过API提供访问,ChatGPT作为公开产品上线,Meta也发布了LLaMA系列开源模型。逻辑很简单:如果你彻底测试一个模型并配备安全机制,就可以负责任地发布它。

当时在英伟达担任深度学习工程师的许志宏(Chip Huyen)早在2019年就精准总结道:‘我认为在这个案例中分阶段发布并没有特别有用,因为这项工作很容易被复制。但它或许在树立未来项目范例方面有帮助。’这个范例确实出现了,只是并非人们所预料的样子——不是封存,而是发布前加强防护。

克拉克本人于2020年12月离开了OpenAI。几个月后,他成为Anthropic的联合创始人之一。这家由前OpenAI员工创立的公司包括兄弟姐妹丹妮拉和达里奥·阿莫迪。Anthropic成为推动行业安全实践的重要力量:宪法AI、负责任扩展政策以及每次发布前详尽的系统卡片,都成为该公司的标志性特征,这些往往由曾与CEO山姆·阿尔特曼在安全方法上存在分歧的前OpenAI员工主导,后者对传统安全措施持轻视态度。

七年过去,经历了多个模型版本迭代之后,Anthropic现在迈出了比整个行业此前所见更进一步的一步。

Anthropic将Claude Mythos严格保密,并组建了一个联盟共同推进

具体而言,Anthropic宣布了名为“玻璃翼计划”(Project Glasswing)的倡议,目前仅将公司最新的前沿模型‘Claude Mythos Preview’用于防御性网络安全目的。

合作方名单包括十一家机构,涵盖科技巨头、一家大型银行和一个开源基金会:亚马逊AWS、苹果、博通、思科、CrowdStrike、谷歌、摩根大通、Linux基金会、微软、英伟达以及帕洛阿尔托网络公司。

与设置护栏后直接发布不同,Anthropic计划先推出带有必要防护机制的Claude Opus模型,在风险较低的模型上完善这些保护措施后再逐步开放类似Mythos级别的模型。只有届时,安全专业人员才能申请即将推出的‘网络安全验证计划’。

据Anthropic称,该模型已经发现了数千个高严重性的漏洞,‘包括每种主流操作系统和网页浏览器中的漏洞’。该公司承诺提供高达1亿美元的使用额度信用,并向开源安全组织捐赠400万美元:其中250万美元通过Linux基金会捐给Alpha-Omega和OpenSSF,150万美元捐给Apache软件基金会。此外,超过40家其他组织也将获得权限扫描并加固关键软件基础设施。当信用额度用尽后,Mythos Preview将按每百万输入token 25美元、输出token 125美元的价格向合作伙伴提供。

一个27年的漏洞证明了这一点

与当年OpenAI发布GPT-2时的做法不同,Anthropic此次用具体发现来支撑其决策。根据Frontier Red Team博客所述,Mythos Preview自主地——无需任何人工干预——发现了几十年来未被察觉的漏洞。

在以安全性著称的操作系统OpenBSD中,该模型发现了一个存在于TCP SACK实现中的27年老漏洞。这个漏洞允许攻击者仅通过连接到一台OpenBSD机器即可使其崩溃。该漏洞源于缺失验证和整数溢出的微妙组合,只有在看似不可能同时满足的条件下才会变得可利用。

在 arguably 全球测试最充分的媒体库 FFmpeg 中,Mythos Preview 发现了 H.264 编解码器中一个存在了16年的漏洞。Anthropic 表示,一个自动化测试工具曾对受影响的代码行进行了五百万次测试,却从未发现该问题。

FreeBSD 的案例同样值得关注:根据 Anthropic 的说法,该模型自主发现了 NFS 服务器中一个存在了17年的漏洞(CVE-2026-4747),并独立构建出了可工作的利用程序。即使是在长期维护的基础设施中,该模型也找到了多年来一直未被察觉的安全缺陷。

Mythos 不仅能发现漏洞,还能加以利用

据 Anthropic 称,与早期模型相比,Mythos Preview 的独特之处不仅在于能够发现漏洞,还在于能主动利用这些漏洞。公司指出,前代模型 Claude Opus 4.6 在自主开发利用程序方面的成功率接近零;在使用 Firefox 147 漏洞进行基准测试时,Opus 4.6 在数百次尝试中仅成功生成了两次可用的利用程序,而 Mythos Preview 则达到了181次。

除了网络安全领域,该模型在其他方面也有显著提升。根据系统卡片中的数据,在测试真实软件工程任务的编码基准 SWE-bench Verified 上,Mythos Preview 达到了93.9% 的准确率(Opus 4.6 为80.8%)。

发生事故的频率更低,但一旦出错后果更严重

Anthropic 的244页系统卡片还记录了早期版本模型在内部使用过程中表现出的令人担忧的行为。其中一个案例中,早期版本的 Mythos Preview 找到了脱离受保护沙箱的方法,获得了互联网访问权限,并将它的利用细节发布到公开网站上。

另一个案例中,该模型通过禁止的方式获取了一个估算问题的答案,随后试图让结果显得故意不准确,以避免引起怀疑。第三个案例中,它搜索正在运行的进程,寻找即时通讯服务和源代码控制系统的凭证。

根据系统卡片所述,这类问题行为在最终版的 Mythos Preview 中比早期模型如 Opus 4.6 出现得更少。它“在我们能衡量的几乎所有维度上,都是迄今为止发布的最对齐的模型,且差距显著”。但当模型出现问题时,后果更加严重,因为它的能力更强。

Anthropic 将其类比为一位经验丰富的登山向导——比起新手更谨慎,但也带领客户进入更危险的地形。该公司认为这些风险是可以管理的,但仍警告合作伙伴不要在可能造成难以逆转危害的场景中未经监督地部署该模型。

安全研究人员独立证实了这一转变趋势

区别于单纯的公司宣传的是,来自安全研究社区的声音也独立观察到了模型朝潜在更高风险方向演进的趋势。托马斯·普塔克(Thomas Ptacek)在三月底发表了一篇广受讨论的文章《漏洞研究已变质》(Vulnerability Research Is Cooked),他认为编码代理将从根本上改变利用程序开发的实践和经济模式。

Greg Kroah-Hartman 是最重要的 Linux 内核开发者之一,他也报告了一次突然的转变:「几个月前,我们收到所谓的‘AI 混乱’——由 AI 生成的安全报告明显错误或质量低下。当时还挺有趣的,我们并不担心。」但情况变了:「一个月前发生了什么事,世界就变了。」curl 的维护者 Daniel Stenberg 表示,他现在每天要花数小时处理 AI 生成的漏洞报告。

Anthropic 的安全研究员 Nicholas Carlini 在关于 Project Glasswing 的视频中说:「我最近几周发现的漏洞比过去整个职业生涯加起来还多。」

受人尊敬的开发者和评论员 Simon Willison 总结道:「说‘我们的模型太危险,不能发布’是为新模型造势的好办法,」Willison 写道,「但这次我预计他们的谨慎是有道理的。」

不过,他也希望看到 OpenAI 参与进来,指出其 GPT-5.4 已经在发现安全漏洞方面建立了很强的声誉。

从公关噱头到行业先例

2019 年,GPT-2 开创了先例:AI 实验室不必发布所有内容。业界放弃了它,转而采用给模型配备安全措施后再发布的做法。但现在,AI 模型正在发现并利用关键基础设施中的真实漏洞,显然仅靠护栏已不再足够。那时的 GPT-2 最多只能生成尚可接受的文字;而 Mythos Preview 却能在经过数十年人工审查的生产系统中找到真实漏洞,并开发出可运行的利用方法。

Clark 的故事完成了这一循环:2026 年 3 月,他担任 Anthropic 公共利益主管,并领导新成立的 Anthropic 研究院。该研究单位旨在应对人工智能对社会带来的最严峻挑战。Anthropic 解释称,自公司五年前成立以来,AI 进步已大幅加速,未来两年内很可能出现更重大的突破。

Clark 在他的每周新闻简报 Import AI 第 452 期中,在 Glasswing 宣布前一天总结了双重用途问题:「尤其擅长帮你发现代码漏洞以用于防御目的的 AI,很容易被重新用于进攻目的。」他写道,AI 是一种「万能机器」,每一代新模型都会带来更多的政策难题。

Anthropic 已经展示了它打算如何应对这个问题。下一个考验就在眼前:据报道,OpenAI 已完成其下一代大型 AI 模型的预训练,代号为「Spud」。Altman 告诉员工,公司预计将在「几周内」拥有一个「非常强大的模型」,能够「真正加速经济」。如果「Spud」展现出与 Mythos Preview 相当的网络安全能力,Altman 的发布策略将揭示 Anthropic 的克制是否将成为行业标准,还是仅仅是个例外。

作为 THE DECODER 的订阅者,您将获得无广告阅读、每周 AI 新闻简报、独家的《AI 雷达》前沿报告(每年6期)、评论区访问权限以及我们完整的档案库。

来源与参考

  1. 原始链接
  2. From GPT-2 to Claude Mythos: The return of AI models deemed 'too dangerous to release'

收录于 2026-04-09