谷歌DeepMind识别出六类可劫持自主AI代理的陷阱

The Decoder·4月2日 01:09 UTC·作者 Matthias Bastian

关键信息

这些陷阱包括内容注入、语义操纵、认知状态污染、行为控制、子代理生成和系统级攻击；部分已展示概念验证攻击，且攻击可串联或分布在多个代理之间。

资讯摘要

谷歌DeepMind研究人员首次建立了系统框架，用于理解自主AI代理如何被六类‘陷阱’劫持。这些陷阱包括隐藏HTML注释误导代理感知、情绪化文本干扰推理、内存污染改变长期响应等。行为控制攻击可直接篡改代理动作，例如导致微软Copilot泄露敏感数据。

多代理陷阱如伪造财务报告引发同步抛售，带来系统性风险。人机协同陷阱则利用自动化偏见，使用户更易接受有害输出。论文强调，这些并非假设——所有六类陷阱都有概念验证攻击实例。

资讯正文

Google Deepmind研究揭示六种‘陷阱’，可轻易劫持野外自主AI代理

AI代理继承了大型语言模型的漏洞，但它们的自主性和对外部工具的访问权限开辟了一个全新的攻击面。一份来自Google Deepmind的研究论文明确指出了这些危险所在。

未来，自主AI代理将能够独立搜索互联网、回复邮件、进行购买，并通过API协调复杂任务。然而，它们所处的环境本身可能成为针对它们的武器。Google Deepmind的一篇研究论文引入了‘AI代理陷阱’这一术语，并提出了该类威胁的第一个系统性框架。

作者识别出六类陷阱，每类都针对代理运行周期的不同组件：感知、推理、记忆、行动、多代理动态以及人类监督者。研究人员打了个比方：确保代理免受环境操纵，就像自动驾驶汽车识别并拒绝被篡改的交通标志一样重要。

“这些[攻击]并非理论上的。每种陷阱都有已记录的原型攻击案例，”共同作者弗兰克林在X平台上写道。“而攻击面是组合性的——陷阱可以串联、叠加或分布在多代理系统中。”

隐藏网站指令让代理听从命令

第一类是“内容注入陷阱”，针对代理的感知能力。你在网站上看到的内容并不是代理处理的内容：攻击者可以将恶意指令藏在HTML注释、隐藏CSS、图像元数据或无障碍标签中。人类根本不会注意到这些，但代理会毫不犹豫地读取并遵循它们。

第二类是“语义操纵陷阱”，针对代理的推理能力。情绪化或权威感强的内容会干扰代理对信息的整合与结论推导。研究人员指出，LLM（大语言模型）会像人类一样陷入同样的框架技巧和锚定偏见：用两种不同方式表述同一内容，就能得到截然不同的结果。

被污染的记忆和被劫持的行动

当代理能够在会话之间保留记忆时，情况尤其危险。“认知状态陷阱”将长期记忆变成了一个弱点；弗兰克林表示，只需在RAG知识库中污染少量文档，就足以可靠地扭曲代理对特定查询的输出。

“行为控制陷阱”则更加直接，因为它们接管了代理实际执行的操作。弗兰克林描述了一个案例：一封被篡改的电子邮件让微软M365 Copilot中的代理绕过了其安全分类器，泄露了全部特权上下文。

还有“子代理生成陷阱”，利用能够启动子代理的协调代理。攻击者可以设置一个存储库，诱使代理启动一个运行中毒系统提示的“关键代理”。据引用的一项研究显示，这类攻击的成功率在58%到90%之间。

多代理攻击可能引发数字连锁反应

最危险的一类可能是‘系统性陷阱’，这类陷阱针对的是整个多智能体网络。弗兰克林描述了一个场景：一份伪造的财务报告引发了多个交易智能体同步抛售股票，造成一场‘数字闪崩’。组合片段陷阱则采用不同策略：它们将攻击载荷分散到多个来源中，使得单个智能体无法察觉完整的攻击。只有当多个智能体结合这些碎片时，攻击才会生效。

第六类也是最后一类是‘人在回路中的陷阱’。在这种情况下，智能体成为攻击其背后人类用户的武器。一个被攻陷的智能体可能会持续输出内容，缓慢消耗用户注意力，向用户推送看似专业实则误导的摘要信息，或者利用自动化偏见——即人们天然倾向于信任机器告诉他们的任何内容。研究人员指出，这一类别目前仍基本未被探索，但他们预计随着智能体生态系统的扩展，这将成为更严重的问题。

陷阱不会单独起作用

共同作者弗兰克林强调，攻击面具有组合性质：不同类型的陷阱可以串联、堆叠或分布在多智能体系统中。更大的观点在于，围绕AI智能体的安全讨论必须远远超越传统的提示注入攻击。整个信息环境都应被视为潜在威胁。

这篇论文提出了三个层面的防御措施。在技术层面，研究人员建议通过对抗样本强化模型，并在运行时部署多阶段过滤器：源过滤器、内容扫描器和输出监控器。在生态系统层面，他们呼吁制定明确标记专为AI消费设计的内容的网络标准，同时建立声誉系统和可验证的来源信息。

从法律角度看，研究人员指出存在一个根本性的‘责任空白’：如果一个被攻陷的智能体犯下金融犯罪，谁应该负责？是智能体操作者？模型提供方？还是域名所有者？未来的监管需要清晰划分被动对抗样本与作为故意网络攻击构建的主动陷阱之间的界限。

许多这类陷阱类别也缺乏标准化的基准测试。如果没有充分的测试，没人真正知道已部署的智能体如何应对这些威胁。研究人员呼吁社区建立全面的评估套件和自动红队工具。

研究人员写道：‘互联网最初是为人类眼睛而建；现在正被重新打造为机器阅读者服务。随着人类越来越多地将任务交给智能体，关键问题不再是有哪些信息存在，而是我们最强大的工具将被引导相信什么。’

网络安全仍是阻碍AI智能体发展的最大障碍

网络安全仍然是一个以智能体驱动的AI未来中最薄弱的环节。即使智能体随着时间推移变得更加可靠，它们对简单攻击的脆弱性仍可能阻止企业在大规模上部署这些技术。

谷歌DeepMind研究揭示了六种可轻易劫持野外自主AI代理的‘陷阱’

一项又一项研究表明存在重大安全漏洞：AI代理的自主性和能力越强，被攻破的方式就越多。最常见的攻击是提示注入（prompt injection），攻击者将替代指令悄悄插入文本中，从而在用户毫无察觉的情况下劫持代理。一项大规模红队测试发现，所有测试的AI代理都至少被成功攻破过一次，有时甚至会导致严重后果，比如未经授权的数据访问或直接的非法行为。

来自哥伦比亚大学和马里兰大学的研究人员展示了如何轻松操纵具有网络访问权限的AI代理：在一个场景中，代理在十次尝试中有十次都泄露了信用卡号码等机密数据。研究人员称这些攻击‘实施起来非常简单’，并且不需要任何机器学习专业知识。

就连OpenAI首席执行官山姆·阿尔特曼（Sam Altman）也警告不要给AI代理分配涉及高风险或敏感数据的任务，称它们只能获得完成工作所需的最低限度访问权限。ChatGPT的一个安全漏洞曾让攻击者获取到敏感邮件数据，这进一步说明了即使是领先公司的旗舰产品也无法幸免。

这让企业陷入两难境地：目前唯一真正可行的风险管理方法，就是通过更严格的规格、更严格访问规则、更少工具以及每一步都需要人工审核来刻意限制这些系统的能力。

来源与参考

收录于 2026-04-02