OpenAI 推出 ChatGPT 锁定模式
Simon Willison··作者 Simon Willison
关键信息
锁定模式并不会阻止提示注入进入模型上下文;恶意指令仍可能出现在缓存网页内容或上传文件中,并影响回答。它的主要保护方式是禁用或限制实时网页浏览、网页图片检索、深度研究和 agent 模式,从而减少数据外泄路径。
资讯摘要
OpenAI 推出了 Lockdown Mode,这是一项新的 ChatGPT 安全功能,目标是降低提示注入攻击在最后阶段导致数据外泄的风险。Simon Willison 指出,这个功能最早在 2 月被预告,如今已经正式上线,并开始向符合条件的个人账户以及自助版 ChatGPT Business 账户开放。根据 OpenAI 的说明,Lockdown Mode 通过限制可能把敏感信息传回攻击者的外向网络请求来发挥作用。公司表示,这项功能主要面向风险等级更高的用户和组织,例如处理敏感数据的人群。
OpenAI 也强调,Lockdown Mode 并不能彻底阻止提示注入,因为恶意指令仍可能出现在缓存网页内容或上传文件中,并继续影响模型的行为或回答准确性。换句话说,这个模式并不是消灭提示注入本身,而是降低攻击成功把数据外传的概率。Willison 认为,这一设计直接针对了他所说的“Lethal Trifecta”中的外泄环节,即私有数据、不可信内容和数据传输通道三者同时存在时的风险。OpenAI CISO Dane Stuckey 还表示,对于高风险用户而言,功能和可用性的部分牺牲是值得的。

资讯正文
OpenAI最早在2月预告了这项功能,但现在它已经上线,并且“正在向符合条件的个人账户推出,包括 Free、Go、Plus 和 Pro,以及自助开通的 ChatGPT Business 账户”:
“锁定模式旨在通过限制可能将敏感数据传输给攻击者的外发网络请求,帮助阻止提示注入攻击最后阶段的数据外泄。锁定模式不会阻止提示注入出现在 ChatGPT 处理的内容中。例如,提示注入可能出现在缓存的网页内容中,或出现在上传的文件中,并且仍然可能影响回复的行为或准确性。”
我觉得这看起来非常好。
所谓<a href="https://simonwillison.net/2025/Jun/16/the-lethal-trifecta/">致命三重奏</a>,是指一个 LLM 系统同时具备三项能力:访问私人数据、接触不受信任的内容,以及将数据窃取并传回攻击者的方式。
要解决这个三重奏,唯一办法就是切断三条腿中的一条;而在不让你的 LLM 系统变得远不那么有用的前提下,最容易限制的,毫无疑问就是窃取数据的数据外泄路径。
在我看来,锁定模式正是直接针对这一条腿下手,而且采用的是确定性的机制,关键在于,这些机制不会由 AI 系统来评估,而这些 AI 系统本身又可能被足够狡猾的攻击所诱导而失守。
不过,锁定模式的存在也意味着,在默认设置下,ChatGPT 并不能为足够坚定的数据外泄攻击提供稳健的防护!
**更新**:OpenAI CISO Dane Stuckey 的<a href="https://twitter.com/cryps1s/status/2062923575049531422">这条推文</a>:
“锁定模式并不适合所有人。不过,对于那些风险状况更高的人——无论是因为他们是谁、他们从事什么工作,还是他们处理的数据类型——这都是进一步加固自身的绝佳工具。它在功能和可用性上会带来一些取舍,但对这些用户来说,这样的取舍是值得的。”
来源与参考
收录于 2026-06-07