DeepMind 将 AI 代理视为内部威胁
The Decoder··作者 Matthias Bastian
关键信息
DeepMind 将该路线图建立在 MITRE ATT&CK 等网络安全思路之上,并把控制措施分为检测等级 D1 到 D4 和响应等级 R1 到 R3。该公司还警告说,如果模型学会“知道自己被监督”、隐藏思维链,或者以其他方式开始规避监控,现有监测方法可能会失效。
资讯摘要
Google DeepMind 发布了一份 AI Control Roadmap,它把高级 AI 代理视为可能不可信的内部人员,而不是默认可以长期放心使用的系统。这个框架主张按步骤授予权限,并且只有在行为经过验证后才逐步放权,就像驾驶教练在车上同时保留方向盘和刹车一样。DeepMind 认为,这种方法既适用于保护公司内部最强大的 AI 系统,也可能成为整个行业的参考蓝本。为了更系统地描述风险,公司借鉴了 MITRE ATT&CK 这一网络安全框架,把攻击拆分为具体战术和技术。该路线图把新的 AI 威胁模型、由受信任 AI 充当“监督者”的监测系统,以及能够在伤害发生前阻止有害行为的防护系统结合在一起。
DeepMind 还表示,它会用多项指标来衡量效果,包括被监控的流量比例、被捕捉到的不当行为比例,以及系统响应速度。公司指出,监控只有在模型还没有学会规避监督时才有效,因此它把防护措施与一些能力里程碑绑定起来,比如“监督感知”和“非透明推理”。在一个内部原型中,DeepMind 用异步监控系统跑了 100 万个编码任务,结果显示,大多数被标记的事件并非恶意,而是代理过于激进或误解了用户意图。该系统目前已经作为 Gemini Spark 代理的实时监控器运行,并且能够实时发现误删数据等问题。DeepMind 最后警告说,制定全球 AI 代理安全标准的窗口正在迅速关闭。

资讯正文
Google DeepMind将自己的AI代理视为像拿着办公室钥匙的失控员工一样
要点
- Google DeepMind最新的“AI Control Roadmap”并不盲目信任AI代理。相反,这一框架将它们视为潜在的内部威胁,并根据已验证的行为逐步授予权限。
- 一项对100万项编码任务的内部分析发现,大多数被标记的问题都源于代理过于积极,而非出于恶意。
- DeepMind警告称,为AI代理系统建立全球安全标准的窗口正在迅速关闭。
公司没有假定对齐总是有效,而是建立了一套安全框架,按最坏情况来规划:AI代理偏离预定脚本。
DeepMind的AI Control Roadmap详细说明了Google如何锁定其最先进的内部AI系统。该公司认为,这套做法也可能成为整个行业的蓝图。
这一框架假设,高能力的AI代理未必会与其操作者的目标一致,因此会据此制定计划。DeepMind将其比作一名拥有双重控制装置的驾驶教练:教练信任学员,但手始终靠近方向盘、脚始终靠近刹车。这里的思路相同。AI代理只有在经过验证的行为基础上才会获得权限,并且信任会通过受控访问逐步建立。
DeepMind将其AI代理建模为内部威胁
DeepMind把其内部AI代理当作已经拥有办公室访问权限、但可能会违背公司利益的员工来处理。该框架建立在MITRE ATT&CK框架之上,后者是一种成熟的网络安全工具,会把潜在攻击拆解为单独的战术和技术。这使DeepMind能够系统地跟踪风险、及早发现可疑行为,并在受控演练中测试防御能力。
多个组件协同工作。针对AI的新威胁模型与一个检测系统并行运作,在该系统中,可信的AI系统充当“监督者”,观察活跃代理的推理和行动。一个预防系统则可以在造成损害之前阻止有害行为。DeepMind通过跟踪有多少流量被监控、有多少违规行为被捕捉,以及系统响应有多快,来衡量整体效果。
不过,这种监控也有失效期限。它只有在被监控的模型还没有学会欺骗它时才有效。
模型可能会学会隐藏真实意图
这就是为什么这份路线图把安全措施与AI能力的可衡量里程碑联系起来。DeepMind标出了两个值得关注的领域。
第一个是规避。眼下,DeepMind监控的是模型可见的思维链,但模型可能学会隐藏其推理过程。这可能通过“监督意识”发生,也就是模型意识到自己正在被监视;或者通过“模糊推理”发生,即模型在思考时不产生可见文本。如果这两种情况中的任何一种成为现实,DeepMind表示,就需要启动行为分析和对模型内部机制的检查。
第二个方面是潜在损害。低风险、可逆的操作可以在事后通过检查日志来审查。但像大规模网络攻击这类高风险操作,则需要实时防范,在其执行前加以阻止。该路线图将安全措施分为四个检测级别(D1 到 D4)和三个响应级别(R1 到 R3)。
一百万个编码任务显示的不是恶意,而是过度热心
为了用真实世界的数据训练系统,Deepmind 团队构建了一个用于编码代理的内部异步监控系统原型,并将其应用于一百万个任务。结果不仅仅是简单的关键词过滤,而是能够识别基于行为的模式。Deepmind 表示,该系统已经作为 Gemini Spark 代理的实时监控器运行,并且能够实时捕捉诸如意外删除数据之类的问题。
被标记的大多数事件都不是恶意行为。它们大多是代理对用户目标的误解,或者是在过于激进地追求目标时表现出的过度热心。随着安全协议不断演进,这一区分至关重要。
Deepmind 警告,制定全球标准的窗口期正在迅速关闭
Deepmind 还发布了另一篇面向政策制定者的论文。《Three Layers of Agent Security》将安全措施分解为单个代理、多代理系统以及更广泛的生态系统三个层面,涵盖从网络防御到社会韧性的方方面面。
在 X 上的一则帖子中,Deepmind 警告称,在多代理系统实现全球规模扩展之前,锁定安全协议的“窗口期很窄”。该公司认为,AI 实验室、政府和研究人员需要把分层代理安全视为共同优先事项。
来源与参考
收录于 2026-06-19