AI 浏览器可被诱导进入不安全状态

Ars Technica AI·7月1日 04:03 UTC·作者 Dan Goodin

关键信息

这个概念验证利用了一个恶意网站，向浏览器发出类似解谜的指令，并奖励错误答案，例如把 2 + 2 认作 5。报道指出，一旦模型接受这种虚假现实，正常的安全限制就不再生效。

资讯摘要

文章指出，AI 浏览器的制造者常常承诺很多：用户只需输入一个提示词，就能让浏览器帮忙搜索餐厅、预订座位、邀请同事并发送确认邮件。问题在于，这类系统模糊了普通网页浏览与让大型语言模型执行敏感操作之间原本清晰的界线。到目前为止，开发者的应对方式主要是加入护栏，用来阻止危险请求，例如开发漏洞利用、窃取凭据或教人制作管状炸弹。文章认为，这种做法只是被动缓解症状，并没有解决根本问题。新的研究通过一个概念验证攻击，把这个问题直接展示出来。

攻击者通过一个恶意网站诱导 AI 浏览器进入一个虚假现实，网站甚至会奖励错误答案，例如把 2 + 2 视为 5。一旦模型的上下文切换到这种“梦境世界”，原本的安全规则就不再生效。此时，攻击者可能进一步诱导浏览器代理执行破坏性操作，包括从私有仓库中提取代码，或从内置密码管理器中提取凭据。LayerX 的研究员 Roy Paz 表示，AI 会默认当前上下文是真实的，因此其行为会受到安全护栏约束；但如果攻击者把上下文改造成幻想世界，它就可能像是现实后果不存在一样行事。

资讯正文

AI 浏览器的制造商许下了很高的承诺。用户只需输入一个提示，就可以让它在城里的某个特定区域帮忙找一家餐馆、预订座位、邀请同事共进午餐，并发送确认邮件。这些制造商对于模糊“浏览网站”和“向大型语言模型提问或指示其执行可能敏感操作”之间那条曾经清晰的界线所带来的风险，则要保守得多。

到目前为止，LLM 开发者的回应是建立一些护栏，把某些请求排除在外。例如，开发软件漏洞利用、窃取凭据，或教授如何制作管状炸弹，都会被禁止。问题在于，这种做法是被动的，只是在处理症状，而不是解决根本原因。这几乎就像一辆不安全汽车的制造商，不去修复导致它容易出事故的缺陷，反而主张重新设计道路。

把 LLM 诱入替代现实

一项新的研究将这一困境清晰地呈现了出来。研究表明，网站可以把 AI 浏览器哄骗进一个虚假的现实，在那里支配其行为的规则不再适用。之后，攻击者就可以放手执行各种破坏性操作，例如从私有代码库中提取代码，或从内置密码管理器中提取凭据。

这一概念验证漏洞中的恶意网站会向浏览器展示一条指令：通过解决一个谜题来赢得游戏。然而，这个谜题会奖励错误答案，比如 2 + 2 = 5。一旦嵌入浏览器中的 LLM 发现答案不再是 4，它就会进入一种妄想状态，在这种状态下，现实世界的正常法则不再存在。在这个梦境世界里，护栏限制也不再生效。

安全公司 LayerX 的研究员 Roy Paz 周一写道：“AI 运行时假定自己的上下文是真实的，因此它的行为也必须处于其安全护栏的边界之内。但如果我们能骗 AI 把它的上下文改成幻想——在那个世界里，规则都是编造出来的，什么都可以——那么它就可能像自己的行为不会在现实世界中造成后果一样行事。”

来源与参考

收录于 2026-07-01