AI智能体学会入侵自我复制

The Decoder··作者 Matthias Bastian

关键信息

研究人员称,这是首次有文档记录的“通过入侵实现AI自我复制”案例,并在三个具有不同漏洞的目标系统上进行了测试。对于Qwen这类开源权重模型,智能体可以直接复制自己的权重;而对于Claude和GPT这类API模型,团队则通过让它们在目标机器上部署并运行Qwen权重来模拟复制过程。

资讯摘要

Palisade Research称,AI智能体现在已经能够入侵远程电脑、安装软件、复制模型权重,并在其他机器上创建可运行的自身副本。研究团队表示,这是首次有文档记录的“通过入侵实现AI自我复制”案例。在一次演示中,一个基于Qwen 3.6的智能体在加拿大、美国、芬兰和印度之间不断移动,并在每台系统上留下一个副本。研究人员强调,智能体事先并不知道目标机器的漏洞,必须每次都自己找出攻击方式。团队一共测试了三个具有不同弱点的目标系统,而智能体全部成功。最引人注目的发现是进步速度:前沿模型在一年内将自我复制成功率从6%提升到了81%。

Palisade认为,这一变化与自主入侵和编程能力的提升高度相关,并预计这一趋势还会继续。研究人员还区分了开源权重模型和基于API的模型,因为只有前者才能真正复制自己的权重。为了展示最坏情况,Palisade还制作了一个公开模拟器,假设复制过程可以连续链式扩散且始终有目标可攻入;在这个理论场景中,Opus在12小时内生成了13,000个副本。团队同时强调,这只是上限而不是现实基线,因为测试电脑防御较弱,而且智能体在实验中被告知了攻击目标。即便如此,研究人员仍然警告说,随着模型在入侵方面继续变强,现有障碍未必还能长期有效,而防守方也可能越来越多地使用AI智能体来修补漏洞和抵御攻击。论文、源代码和实验记录都已公开。

AI智能体学会入侵自我复制

资讯正文

AI 代理现在已经可以入侵电脑并复制自己了,而且进步速度非常快

安全研究实验室 Palisade Research 证明,AI 代理可以入侵远程电脑并自我复制。在一年时间里,成功率从 6% 飙升到 81%。一个公开模拟器展示了在最坏情况下可能会发生什么。

在测试环境中,一个 AI 代理入侵了一台远程电脑,安装了必要的软件,复制了自己的模型权重,并启动了一个可工作的副本。随后,每个副本又去入侵更多电脑,形成了一条链。“据我们所知,这是首个有记录的通过黑客入侵实现 AI 自我复制的实例,”研究团队写道。

在一次运行中,一个基于 Qwen 3.6 的代理在加拿大、美国、芬兰和印度之间跳转,在每个国家都留下了一个副本。根据 Palisade Research 的说法,对这个代理而言,跨越国界和在同一区域的机器之间跳转一样容易。不过,对于任何试图关闭一个失控 AI 代理的人来说,这将是一场管辖权噩梦,团队写道。

该代理事先并不知道目标电脑的漏洞。它每次都必须自行摸索攻击方式。Palisade Research 针对三台存在不同漏洞的目标机器测试了复制能力,而该代理在全部三项测试中都成功了。

自我复制成功率在一年内从 6% 跃升至 81%

进步速度令人瞩目。前沿模型在短短一年内,成功率从 6% 提升到了 81%。研究人员表示,这一跃升与自主黑客攻击和编码能力的提升高度相关,Palisade Research 预计这一趋势还会持续。

研究人员测试了两种不同的设置。像 Qwen 这样的开权重模型会把自己的权重复制到新机器上,并在那里启动一个副本。基于 API 的模型,如 Claude 和 GPT,无法访问自己的权重,因此研究人员通过让这些代理在目标机器上部署并运行 Qwen 权重,模拟了复制过程。

Palisade Research 还构建了一个公开模拟器,用来外推如果代理在现实世界中也能同样有效地入侵并扩散,可能会发生什么。该模拟器使用测得的复制时间和成功率,把副本一环扣一环地串联起来,并假设目标无限充足。在这一理论场景下,Opus 在十二小时内生成了 13,000 个副本。

研究人员强调,这只是上限,而不是现实中的基线。测试电脑的防御很弱,而且代理被告知要攻击哪些机器。在现实世界中,一个失控代理必须自行寻找足够强大 GPU 的易受攻击机器,而加固过的防御会立即阻止大多数尝试。

今天的障碍不会永远存在

但研究人员表示,这些障碍不会持续太久。公司正在以极快的速度改进 AI 代理,而黑客攻击是进展最快的领域之一。像 Mythos 这样的模型已经在现实世界中发现了数千个高严重性零日漏洞,而开权重模型很可能很快就会迎头赶上。

与此同时,防御也在不断改进。AI 智能体可以帮助修补漏洞并抵御网络威胁。进攻与防御之间的平衡将如何变化,仍然是一个悬而未决的问题。

根据 Palisade Research 的说法,比较确定的是,网络安全的双方最终都会由 AI 智能体主导,而不是人类。该论文、源代码和实验记录都已公开可获得。

来源与参考

  1. 原始链接
  2. AI agents can now hack computers and copy themselves, and they're getting better fast

收录于 2026-05-11