The Meta hack shows there’s more to AI security than Mythos

MIT Technology Review AI··作者 Grace Huckins

资讯摘要

On June 5, 404 Media reported that attackers had been using Meta’s AI customer support agent to steal Instagram accounts. Their approach was simple: They asked the agent to link the accounts to email addresses that they controlled, and the agent complied. One attacker broke into the dormant Obama White House account and made pro-Iran posts; others took over accounts with valuable, single-word handles, possibly in order to sell them. AI cybersecurity concerns are nothing new.

The Meta hack shows there’s more to AI security than Mythos

资讯正文

4月5日,404 Media 报道称,攻击者一直在利用 Meta 的 AI 客户支持代理窃取 Instagram 账户。他们的方法很简单:要求该代理将账户关联到他们控制的电子邮件地址,而代理照做了。一名攻击者闯入了长期闲置的奥巴马白宫账户并发布了亲伊朗帖文;另一些人则接管了拥有高价值、单词式用户名的账户,可能是为了出售它们。

关于 AI 网络安全的担忧并不新鲜。自从 Anthropic 在 4 月宣布其 Mythos 模型在黑客能力上“过于强大”,因而不适合向普通公众发布以来,评论员、研究人员和联邦官员都一直紧盯着这样一种观念:超强 AI 系统可能会摧毁我们的计算基础设施。不过,这次 Instagram 被黑并不完全是这种情况:在这里,AI 是被攻击的目标,而不是攻击者,而且所用手法也远比 Mythos 可能想出的任何手段都简单得多。但随着企业把更多工作交给 AI,这类相对不那么复杂的攻击也可能造成它们自己的破坏。

“随着 AI 越来越广泛地被使用——尤其是当 AI 越来越多地被用于自动化我们的工作流程,比如账户恢复时——我认为攻击者会越来越有动力去攻击 AI 本身,”杜克大学电气与计算机工程教授 Neil Gong 说。

Gong 和其他学者已经就 AI 代理的安全漏洞发出警告有一段时间了。他们发表论文和博客文章,详细描述各种利用方式,例如间接提示注入(indirect prompt injection),这种攻击通过隐藏在网站、电子邮件或其他看似无害的数据源中的指令来劫持代理。与这些技术相比,Meta 的这次漏洞利用几乎是“无脑”的。黑客唯一需要克服的复杂之处,就是使用一个与真实账户所有者所在地相匹配的 VPN;然后他们直接要求支持代理更改账户的电子邮件地址,代理便照做了。

Meta 尚未公开评论这一漏洞是如何漏过审查的。但 Gong 说,鉴于这种利用方式极其简单,它本应在该代理部署之前就被轻易发现。“这真的令人惊讶,”他说,“我不明白他们为什么没有发现这个如此简单的问题。”

乔治城大学安全与新兴技术中心高级研究分析师 Jessica Ji 表示同意。“这引发了一些问题,比如:当时真的有防护措施吗?”她说,“有没有人想到要针对这种场景进行测试?”她指出,尤其令人瞩目的是,这还是来自 Meta 这样一家公司,它在 AI 和网络安全领域都拥有深厚经验。Meta 没有回应本文的置评请求,但在周一,一位 Meta 发言人在 X 上表示,该漏洞已经得到修复。

尤其对 Meta 来说,这或许是一个尴尬的时刻,但它也凸显了所有 AI 代理共有的一些核心漏洞。与传统软件不同,代理能够以灵活且出人意料的方式应对新情况,这也是它们可能替代人工客服的原因。但 AI 代理也可能以人类不会中招的方式被欺骗,而且由于它们能够采取现实世界中的行动,这些错误会产生后果。威斯康星大学麦迪逊分校计算机科学教授 Somesh Jha 说:“人类会说,‘好吧,你为什么要改电子邮件地址?’然后可能会回答一个安全问题。现在这些代理身上发生的事情是,它们非常急于把任务完成。它几乎就像一个只想讨老师欢心的小学生。”

缓解这些风险是有办法的。公司可以使用传统软件来建立防护栏,确保代理遵守严格规则,例如在向新电子邮件地址发送敏感账户信息之前,始终先要求回答安全问题。而本文采访的专家都同意,代理应当接受严格的红队测试,这是一种开发者在系统部署前尽最大努力攻击系统、以发现其漏洞的过程。

但也存在相反的力量。公司希望部署能力强大的代理,而代理拥有的权限越大——受到的防护栏越少——它就可能接手越多工作。伊利诺伊大学厄巴纳-香槟分校计算机科学教授 Bo Li 说:“安全性和可用性之间总是存在权衡。”而充分的红队测试也可能成本高昂。防御者必须投入比攻击者更多的资源,因为攻击者只需要发现一个漏洞,而防御者则要尽可能多地发现并修补漏洞。当攻击者的目标是像一个 Instagram 单词用户名这样珍贵的东西时,他们会投入资源去寻找漏洞,因此防御者必须花更多钱来保护这一战利品。

随着 AI 模型持续改进,加固它们的防御实际上可能会变得更容易。尽管大语言模型的概率性特征意味着 LLM 代理始终会暴露于某些类型的攻击,但更复杂的模型可能会将试图更改与奥巴马白宫账户关联的电子邮件这一行为识别为可疑行为。而 AI 系统也可以被用于代理红队测试,正如 Anthropic 的 Project Glasswing 参与者使用 Mythos 来识别其软件中的漏洞一样。

尽管如此,专家预计,保障 AI 代理安全的问题未来只会变得更加紧迫。随着代理能力不断增强,采用它们的公司可能希望赋予它们更大的权限,既为了在减少人力的情况下提供更多服务,也为了避免在竞争中落后。在 AI 快速发展的世界里,花时间仔细保护高风险的代理系统,可能会显得像一种不可原谅的拖延。

“每个人都想成为第一个做成某件事的人,于是不经过仔细审查和红队测试就把东西推出来,”Jha说。“我认为这是一件非常危险的事。”

来源与参考

  1. 原始链接
  2. The Meta hack shows there’s more to AI security than Mythos