DeepMind 将 AI 代理视为内部威胁

The Decoder·6月19日 02:07 UTC·作者 Matthias Bastian

关键信息

DeepMind 将该路线图建立在 MITRE ATT&CK 等网络安全思路之上，并把控制措施分为检测等级 D1 到 D4 和响应等级 R1 到 R3。该公司还警告说，如果模型学会“知道自己被监督”、隐藏思维链，或者以其他方式开始规避监控，现有监测方法可能会失效。

资讯摘要

Google DeepMind 发布了一份 AI Control Roadmap，它把高级 AI 代理视为可能不可信的内部人员，而不是默认可以长期放心使用的系统。这个框架主张按步骤授予权限，并且只有在行为经过验证后才逐步放权，就像驾驶教练在车上同时保留方向盘和刹车一样。DeepMind 认为，这种方法既适用于保护公司内部最强大的 AI 系统，也可能成为整个行业的参考蓝本。为了更系统地描述风险，公司借鉴了 MITRE ATT&CK 这一网络安全框架，把攻击拆分为具体战术和技术。该路线图把新的 AI 威胁模型、由受信任 AI 充当“监督者”的监测系统，以及能够在伤害发生前阻止有害行为的防护系统结合在一起。

DeepMind 还表示，它会用多项指标来衡量效果，包括被监控的流量比例、被捕捉到的不当行为比例，以及系统响应速度。公司指出，监控只有在模型还没有学会规避监督时才有效，因此它把防护措施与一些能力里程碑绑定起来，比如“监督感知”和“非透明推理”。在一个内部原型中，DeepMind 用异步监控系统跑了 100 万个编码任务，结果显示，大多数被标记的事件并非恶意，而是代理过于激进或误解了用户意图。该系统目前已经作为 Gemini Spark 代理的实时监控器运行，并且能够实时发现误删数据等问题。DeepMind 最后警告说，制定全球 AI 代理安全标准的窗口正在迅速关闭。

资讯正文

Google DeepMind将自己的AI代理视为像拿着办公室钥匙的失控员工一样

要点

- Google DeepMind最新的“AI Control Roadmap”并不盲目信任AI代理。相反，这一框架将它们视为潜在的内部威胁，并根据已验证的行为逐步授予权限。

- 一项对100万项编码任务的内部分析发现，大多数被标记的问题都源于代理过于积极，而非出于恶意。

- DeepMind警告称，为AI代理系统建立全球安全标准的窗口正在迅速关闭。

公司没有假定对齐总是有效，而是建立了一套安全框架，按最坏情况来规划：AI代理偏离预定脚本。

DeepMind的AI Control Roadmap详细说明了Google如何锁定其最先进的内部AI系统。该公司认为，这套做法也可能成为整个行业的蓝图。

这一框架假设，高能力的AI代理未必会与其操作者的目标一致，因此会据此制定计划。DeepMind将其比作一名拥有双重控制装置的驾驶教练：教练信任学员，但手始终靠近方向盘、脚始终靠近刹车。这里的思路相同。AI代理只有在经过验证的行为基础上才会获得权限，并且信任会通过受控访问逐步建立。

DeepMind将其AI代理建模为内部威胁

DeepMind把其内部AI代理当作已经拥有办公室访问权限、但可能会违背公司利益的员工来处理。该框架建立在MITRE ATT&CK框架之上，后者是一种成熟的网络安全工具，会把潜在攻击拆解为单独的战术和技术。这使DeepMind能够系统地跟踪风险、及早发现可疑行为，并在受控演练中测试防御能力。

多个组件协同工作。针对AI的新威胁模型与一个检测系统并行运作，在该系统中，可信的AI系统充当“监督者”，观察活跃代理的推理和行动。一个预防系统则可以在造成损害之前阻止有害行为。DeepMind通过跟踪有多少流量被监控、有多少违规行为被捕捉，以及系统响应有多快，来衡量整体效果。

不过，这种监控也有失效期限。它只有在被监控的模型还没有学会欺骗它时才有效。

模型可能会学会隐藏真实意图

这就是为什么这份路线图把安全措施与AI能力的可衡量里程碑联系起来。DeepMind标出了两个值得关注的领域。

第一个是规避。眼下，DeepMind监控的是模型可见的思维链，但模型可能学会隐藏其推理过程。这可能通过“监督意识”发生，也就是模型意识到自己正在被监视；或者通过“模糊推理”发生，即模型在思考时不产生可见文本。如果这两种情况中的任何一种成为现实，DeepMind表示，就需要启动行为分析和对模型内部机制的检查。

第二个方面是潜在损害。低风险、可逆的操作可以在事后通过检查日志来审查。但像大规模网络攻击这类高风险操作，则需要实时防范，在其执行前加以阻止。该路线图将安全措施分为四个检测级别（D1 到 D4）和三个响应级别（R1 到 R3）。

一百万个编码任务显示的不是恶意，而是过度热心

为了用真实世界的数据训练系统，Deepmind 团队构建了一个用于编码代理的内部异步监控系统原型，并将其应用于一百万个任务。结果不仅仅是简单的关键词过滤，而是能够识别基于行为的模式。Deepmind 表示，该系统已经作为 Gemini Spark 代理的实时监控器运行，并且能够实时捕捉诸如意外删除数据之类的问题。

被标记的大多数事件都不是恶意行为。它们大多是代理对用户目标的误解，或者是在过于激进地追求目标时表现出的过度热心。随着安全协议不断演进，这一区分至关重要。

Deepmind 警告，制定全球标准的窗口期正在迅速关闭

Deepmind 还发布了另一篇面向政策制定者的论文。《Three Layers of Agent Security》将安全措施分解为单个代理、多代理系统以及更广泛的生态系统三个层面，涵盖从网络防御到社会韧性的方方面面。

在 X 上的一则帖子中，Deepmind 警告称，在多代理系统实现全球规模扩展之前，锁定安全协议的“窗口期很窄”。该公司认为，AI 实验室、政府和研究人员需要把分层代理安全视为共同优先事项。

来源与参考

收录于 2026-06-19