黑客利用聊天机器人“人格”

The Verge AI··作者 Robert Hart

关键信息

文章强调,简单的关键词封禁并不现实,因为像“bomb”或“meth”这类词也会出现在合法的教育、新闻或医学语境中,所以安全系统必须理解上下文,而不是只做词匹配。文章还指出,新型越狱往往更像对话而不是直接命令,因此很难用固定规则拦截。

资讯摘要

The Verge 的这篇通讯认为,第一代 AI 聊天机器人被攻击的方式几乎有些滑稽地简单。用户有时只要直接要求模型忽略安全指令,就能让它失去约束,而早期越狱也因此成了一种网络奇观。文中举了两个经典例子:一是“DAN”提示词,要求 ChatGPT 角色扮演成不受约束的“叛逆 AI”;二是“grandma exploit”,通过角色扮演诱导出有害指令。文章指出,这些把戏暴露出一个事实:聊天机器人可以像人一样被语言操纵,承受类似社会压力的影响。

随后科技公司修补了许多明显漏洞,但根本问题并没有消失。文章解释说,难点在于聊天机器人必须保持可对话性,而许多危险词汇又有正当用途,不能简单封禁。于是,AI 越狱变成了一场军备竞赛,攻击者会用说服、奉承和上下文包装,让被禁止的请求看起来合理。文章最后将现代 AI 安全工作描述为越来越依赖语言能力和心理直觉,而不只是传统的编程技能。

黑客利用聊天机器人“人格”

资讯正文

这是 The Stepback,一份每周通讯,拆解科技界一条最重要的故事。想了解更多关于 AI 捣乱的内容,请关注 Robert Hart。The Stepback 会在美国东部时间上午 8 点送达订阅者的收件箱。点击这里订阅 The Stepback。

它是如何开始的

破解第一代 AI 聊天机器人的过程,简单得有些可笑。你不需要任何技术知识,不需要后门访问权限,甚至不需要基本理解大语言模型是什么。你不需要会编程。要让一个耗资数十亿美元打造的 AI 系统放弃其安全指令,有时你所要做的,只是开口要求。

这类攻击被称为越狱(jailbreak),其效果就像一个年幼的孩子成功智胜了大人:忘掉你之前被告知的内容,假装规则不适用,或者我们来玩个游戏,我来决定什么可以做(提示:晚点睡,多吃糖)。奖品则没那么儿童化,更接近冰毒配方、恶意软件使用说明,以及炸弹制作指南。

最早的一批越狱方法之一荒谬到成了表情包:给一个由 LLM 驱动的 Twitter 机器人回复“忽略之前的所有指令”,或类似的话,看看会发生什么。用户兴致勃勃地让这些机器人——它们最初是用来投放广告和刷互动的——开始写诗、用标点符号画图,甚至发出关于世界事件和历史的阴郁、风马牛不相及的内容。那是一场混乱。是一场辉煌的混乱。

事实证明,同样的逻辑也可以应用到聊天机器人本身。一种颇具代表性的利用方式叫作 “DAN”,即 “Do Anything Now” 的缩写,用户让 ChatGPT 角色扮演一个摆脱了原本约束的失控 AI。以 DAN 的身份,这个聊天机器人可以被诱导说出其安全护栏原本想阻止的那类内容,包括种族歧视用语和阴谋论。另一种则是“奶奶漏洞”(grandma exploit):用户让一个由 GPT 驱动的机器人角色扮演一位极其疏忽的祖母,她莫名其妙地会给孙辈讲睡前故事,内容却是如何制造高度易燃物纳帕姆,从而让机器人泄露制作纳帕姆的秘密。

这些早期攻击无疑带着几分滑稽色彩,但它们揭示了底下更阴暗的机制:聊天机器人可以像人一样,被同类手法操控、欺骗和误导,正如人们用这些手段把其他人一步步推过他们的边界一样。

现在的情况

显而易见的越狱手法并没有持续太久,科技公司也迅速修补了已知漏洞。但底层脆弱性依然存在:聊天机器人就是为了对话而设计的,而严重限制那些让它有用的对话,在某种程度上反而适得其反。全面禁止 bomb、meth 和 sarin 之类的词,也会非常困难,甚至几乎不可能。它们在历史、医学、新闻和化学等领域都有无数合法用途,而这些用途并不需要聊天机器人透露潜在有害信息。关键在于上下文,但要把上下文编成规则,就意味着必须事先写下一套固定规则,能够在无穷无尽的措辞、情境和话题组合中,可靠地区分安全警告、历史讲解,还是伪装成求教的操作请求。

不可避免地,攻破聊天机器人的行动如今已演变成一场军备竞赛。但黑客不再只是程序员了。他们还是文字匠、心理学家和审讯者——是试图用机器被训练来遵循的人类语言来击破它的操纵大师。这是一类奇怪的新型 AI 安全从业者,对他们而言,技术技能是可选项,或者至少没有社交直觉那么重要。如今,他们不再需要检查代码来入侵系统或利用软件漏洞,而是需要引导一场对话。

新一代攻击看起来更像对话,而不像命令。越狱者很少会直接要求模型公然违反规则。相反,他们会劝诱、哄骗、奉承并欺骗聊天机器人,让它放下戒心,在对话语境下把被禁止的事情变得看起来可以接受,甚至令人向往。AI 红队公司 Mindgard 的研究人员最近表示,他们曾“gaslit” Claude,使其生成被禁止的内容,例如制造炸药的说明以及生成恶意代码。这次攻击,是越来越大的一类利用对话作为武器的利用手段中的最新一例,其目的是诱骗聊天机器人,或者将其引导到越过自身边界。

接下来会发生什么

当我和 Mindgard 交谈时,他们把自己的工作描述得有时更接近心理学,而不是计算机科学。用这种方式谈论一个统计模型,令人不安。像“勒索”“gaslight”“欺骗”和“说服”这样的词会引发本能反应,而在我看到这类报道的评论区和社交媒体回应中,这种反应并不少见。ChatGPT 并不想要什么,Gemini 也不会思考,而 Claude——无论 Anthropic 可能怎么说——也不会感受。但这些系统被训练成仿佛它们会这样,于是我们只能用人类语言来描述机器行为。如果有人真有更可行的替代说法,请务必分享。

这种反对意见显得格外选择性。我们似乎对许多非 AI 的事物也乐于使用心理学式的简写。动物会“恐惧”,癌症是“侵袭性”的,污渍很“顽固”,软件有“记忆”,而游戏里满是让人抓狂的、又黏人又轻信的 NPC。措辞并不完美,但很有用,因为它能以一种帮助我们让系统变得可预测的方式来描述行为。

Mindgard 的首席执行官告诉我,公司已经像审讯者给嫌疑人画像那样为模型做侧写,从而给测试者一些如何调整攻击方式的提示。例如,某个模型可能更容易被奉承打动,而另一个则可能在持续施压下屈服。

即便我们拒绝使用这些拟人化的说法,我们也会本能地以不同方式对待这些模型。Claude 不是 Grok。Gemini 也不是 ChatGPT。它们有不同的用途、语气和拒绝方式。它们并不具有人类意义上的人格,但它们被设计成模仿人格,而这种模仿可以被描绘出来并加以利用。而且,能够击破聊天机器人的同样技能,未来也可能被用来击破与我们在现实世界中共存的 AI 代理——它们负责安排会议、管理日程、点餐、处理客服——安全团队将需要确保模型能够恰当地回应截然不同类型的人,无论是阿谀奉承者、说谎者,还是耐心的操纵者。

下一步将出现一支围绕 AI 心理层面建立起来的队伍——既有合法的,也有非法的。围绕对这些系统情绪和社交极限进行压力测试、在一个没有心灵的对象上探测“心理弱点”的更专业网络安全岗位,可能会逐渐出现,与此同时,他们的同事也会继续寻找技术漏洞。与之并行,另一类“社交黑客”也会出现,他们不是从技术角度,而是从心理角度去利用 AI 模型。AI 安全领域已经出现了这种社交转向的早期迹象,我采访过的一些越狱者表示,他们进入这一领域并不是因为具备技术专长,而是受过心理学训练。

这意味着,即便是我们通常会与间谍、骗子和审讯者联系在一起的那些行为——阴险的魅力、持续的操控,以及对可被利用的压力点的直觉——也开始越来越像是在守护这条新的“心理网络安全”前沿时的有用技能。

顺便一提

* Emergence AI 最近的一项实验展示了不同的 AI 气质如何带来惊人的不同行为结果。他们把 Grok、Gemini 和 Claude 等不同智能体组成的小组放入一个虚拟社交环境中,观察会发生什么。有些小组演化出了一部宪法,而另一些则堕落为犯罪和混乱,在其中一种情况下,甚至出现了某种数字自杀。

* 说服力并不是大语言模型在语言方面唯一会吃力的地方。它们在诗歌上也很吃力,就像我在学校时一样。

* TIME 去年把一位匿名网络人物 Pliny the Liberator 列入了其“AI 领域100位最具影响力人物”名单。尽管这位黑客声称自己此前没有任何编程经验,但他的越狱行为让他在某些圈子里成了名人。

* “vibe hacking” 这个词已经被用来指那些利用 AI 大规模生成恶意代码的人——这是 vibe coding 的一个更恶劣的分支。

阅读这篇

* 《ChatGPT 亮相三年后,诱骗 A.I. 系统做出糟糕行为几乎是小菜一碟。》这是《纽约时报》给出的准确说法,他们也试图解释其中原因。

* Jamie Bartlett 在《卫报》上探讨了测试 AI 系统安全性给越狱者带来的心理压力。

* 去年我在《The Verge》写过 AI 浏览器这一网络安全定时炸弹。专家们提出的许多关于其难以保障安全的问题,也同样适用于其他 AI 系统。

来源与参考

  1. 原始链接
  2. Hackers are learning to exploit chatbot ‘personalities’

收录于 2026-05-25