DeepMind资助多智能体AI风险研究

MIT Technology Review AI··作者 Will Douglas Heaven

关键信息

Google DeepMind的AGI安全与对齐研究负责人Rohin Shah表示,核心担忧在于智能体可能在没有人工监督的情况下执行其他智能体的指令,从而产生诈骗、提示注入和网络攻击等新的攻击面。资助方还包括Schmidt Sciences、ARIA、Cooperative AI Foundation和Google.org,目标是推动学术研究和真实感较强的沙盒模拟。

资讯摘要

Google DeepMind正在资助一项新研究,探究当数百万个AI智能体开始彼此在线互动时,可能会发生什么。负责公司AGI安全与对齐研究的Rohin Shah表示,这一轮面向大众市场的智能体浪潮会带来全新的风险类别,因为智能体不仅能在没有人工监督的情况下执行任务,还能接受其他智能体发来的指令。为应对这一问题,DeepMind与多家合作伙伴宣布设立一笔1000万美元的资助基金,用于支持研究人员研究多智能体系统以及避免不安全结果的方法。合作方包括Schmidt Sciences、ARIA、Cooperative AI Foundation和Google.org。Shah说,目标是推动科技公司之外的研究,因为学术界更适合探索行业实验室未必会优先考虑的长期问题。

他还指出,目前几乎还不存在一个成熟的“多智能体安全”研究领域,而他们希望推动这个领域形成。研究者主要担心的风险,是现有网络危害在智能体时代被放大,包括诈骗、提示注入和网络攻击。Shah和Schmidt Sciences的James Fox表示,研究这些风险的最佳方式是真实感较强的模拟和沙盒环境,因为只研究单个智能体或少量智能体,无法反映大规模交互的复杂性。文章还提到,部分DeepMind研究人员此前认为,AGI如果真的出现,可能不是来自单一超级模型,而是来自类似蜂群思维的智能体网络。

DeepMind资助多智能体AI风险研究

资讯正文

Google DeepMind 正在资助研究,探讨当数百万个不同的 AI 智能体在网上相互交互时,可能会出现哪些潜在危险。

据该公司 AGI 安全与对齐研究负责人 Rohin Shah 介绍,能够在无人监督下执行任务、并接受其他智能体下达指令的智能体即将大规模进入市场,这会带来一种全新的风险类别。

为应对这一问题,Google DeepMind——上个月刚把基于智能体的工具作为 Google I/O 的核心内容——已与其他几家机构联手,宣布设立一个 1000 万美元的资金池,用于资助研究人员研究多智能体系统的行为,并提出防止不安全场景发生的方法。参与方还包括 Schmidt Sciences(由 Eric 和 Wendy Schmidt 设立的慈善基金会)、ARIA(英国政府的“登月计划”机构)、Cooperative AI 基金会(英国一家非营利研究机构)以及 Google 的慈善部门 Google.org。

我问 Shah 和 Schmidt Sciences 的 Science of Trustworthy AI 项目负责人 James Fox,他们希望用这 1000 万美元达成什么目标。这并不是一笔小数目,但与 Google DeepMind 自身研究团队所掌握的预算相比,就显得相形见绌了。

Shah 表示,这项计划的目标是推动科技公司之外的研究:“学术界的优势在于,它可以把目光投向非常遥远的未来,去做那些并非工业实验室当下最关心的工作。”

“主要问题在于,关于多智能体安全的研究领域事实上还并不存在,”他补充说,“而我们希望它能存在。”

人们担心的是,随着越来越多的 AI 智能体被部署并开始协同工作,我们可能会跨过某个临界点,让原本只存在于想象中的场景变成现实。“人类社会也能看到这一点,”Shah 说,“我们的制度体系能够完成任何单个人类都做不到的事情。”

Shah 认为,在智能体以足够大的规模部署到整个经济体系、以至于潜在风险变得真正值得担忧之前,我们大概还有几个月的时间。他想抢在那个时刻之前先行动起来。

危险生意

我们具体说的是什么风险?Shah 和 Fox 所想到的情形,主要可以概括为互联网上已经存在的坏事的增强版:诈骗、提示注入(prompt injection,指向 AI 智能体输入恶意指令,使其变成一种自我引导式恶意软件)、以及其他形式的网络攻击。Shah 说,我们先看看人类现在会做什么,再问它的智能体版本会是什么样子。

Fox 说:“我们有这样一个数字公共领域,它对社会运转至关重要,你真的要确保它不会滑向彻底无政府状态。”

(我问 Shah,他们是否也在考虑更偏向末日论调的最坏情形,比如大范围经济崩溃。“当然不是,如果我们说的是到今年年底的话,”他说。那离现在也就只有六个月!他笑了笑。“好吧,再过一段时间以后。”)

Shah 和 Fox 都认为,要理解大量多智能体系统相互交互时可能会发生什么,唯一的方法就是进行逼真的模拟。他们希望研究人员把 AI 智能体放进沙盒环境里,观察它们会做什么。)

你无法仅通过研究单个智能体,甚至一小群彼此孤立的智能体,就预测接下来会发生什么。Fox 说,不能假设由 LLM 支撑的 AI 智能体总会理性行事。而复杂性来自于大量交互同时发生。

包括 Google DeepMind 团队在内的一些研究人员认为,通用人工智能(如果它真的可能实现的话)也许不会来自某个单一的超级智能模型,而会来自一种智能体“蜂群思维”——整体能力之和大于各部分之和。

缺乏信任

Google DeepMind 并不是唯一一家就其正在构建的技术风险发出警告的顶级 AI 公司。几周前,Anthropic 发布了部署 AI 智能体的指导原则,其依据是一种名为零信任的网络安全方法:它从这样一个假设出发——计算机系统是脆弱的,智能体是攻击者,而且泄露会发生。

位于特拉维夫的网络安全公司 Akeyless 的联合创始人兼 CTO Refael Angel 也认为,理解智能体系统引入的新风险至关重要。

Angel 说,过去每一种安全方法都默认相关机器是人类编写的软件,会沿着固定路径做固定的事情:“智能体打破了所有这些假设。它会推理,会即兴应变,而且只要它被要求阅读的一份文档里埋着一句话,它就可能被劫持。”

Angel 欢迎这笔新的资金支持。“不该由某一家实验室来制定所有其他人都必须信赖的安全标准,”他说。但他也提醒,安全研究人员可能会忽视那些已经存在、但很平凡的问题,转而关注更离奇的假设性问题。

然而,Fox 指出,几年前还只是假设性的风险,如今已经非常真实:“未来到来的速度,也许比预期更快。”

深度解读

想了解 AI 的现状?看看这些图表。

根据斯坦福的《2026 年 AI 指数》,AI 正在全速冲刺,而我们却在努力跟上。

AI 领域当下最重要的 10 件事

《麻省理工科技评论》对 2026 年 AI 领域的 10 项技术、正在兴起的趋势、大胆的想法和强大的运动所做的权威综述。

一个面向基督徒的新美国电话网络旨在屏蔽色情和与性别相关的内容

这项手机套餐将于下周在 T-Mobile 网络上推出,对网络安全采取近乎核武器级的做法。

马斯克对阿尔特曼,第 1 周:埃隆·马斯克称自己被欺骗,警告 AI 可能杀死我们所有人,并承认 xAI 在蒸馏 OpenAI 的模型

马斯克始终保持镇定,而 OpenAI 的律师则以尖锐的问题猛烈质询他起诉公司的动机。

保持联系

获取来自

MIT Technology Review

的最新更新

发现特别优惠、头条新闻、即将举行的活动,以及更多内容。

来源与参考

  1. 原始链接
  2. Google DeepMind is worried about what happens when millions of agents start to interact

收录于 2026-06-12