黑客利用聊天机器人“人格”

The Verge AI·5月24日 20:00 UTC·作者 Robert Hart

关键信息

文章强调，简单的关键词封禁并不现实，因为像“bomb”或“meth”这类词也会出现在合法的教育、新闻或医学语境中，所以安全系统必须理解上下文，而不是只做词匹配。文章还指出，新型越狱往往更像对话而不是直接命令，因此很难用固定规则拦截。

资讯摘要

The Verge 的这篇通讯认为，第一代 AI 聊天机器人被攻击的方式几乎有些滑稽地简单。用户有时只要直接要求模型忽略安全指令，就能让它失去约束，而早期越狱也因此成了一种网络奇观。文中举了两个经典例子：一是“DAN”提示词，要求 ChatGPT 角色扮演成不受约束的“叛逆 AI”；二是“grandma exploit”，通过角色扮演诱导出有害指令。文章指出，这些把戏暴露出一个事实：聊天机器人可以像人一样被语言操纵，承受类似社会压力的影响。

随后科技公司修补了许多明显漏洞，但根本问题并没有消失。文章解释说，难点在于聊天机器人必须保持可对话性，而许多危险词汇又有正当用途，不能简单封禁。于是，AI 越狱变成了一场军备竞赛，攻击者会用说服、奉承和上下文包装，让被禁止的请求看起来合理。文章最后将现代 AI 安全工作描述为越来越依赖语言能力和心理直觉，而不只是传统的编程技能。

资讯正文

这是 The Stepback，一份每周通讯，拆解科技界一条最重要的故事。想了解更多关于 AI 捣乱的内容，请关注 Robert Hart。The Stepback 会在美国东部时间上午 8 点送达订阅者的收件箱。点击这里订阅 The Stepback。

它是如何开始的

破解第一代 AI 聊天机器人的过程，简单得有些可笑。你不需要任何技术知识，不需要后门访问权限，甚至不需要基本理解大语言模型是什么。你不需要会编程。要让一个耗资数十亿美元打造的 AI 系统放弃其安全指令，有时你所要做的，只是开口要求。

这类攻击被称为越狱（jailbreak），其效果就像一个年幼的孩子成功智胜了大人：忘掉你之前被告知的内容，假装规则不适用，或者我们来玩个游戏，我来决定什么可以做（提示：晚点睡，多吃糖）。奖品则没那么儿童化，更接近冰毒配方、恶意软件使用说明，以及炸弹制作指南。

最早的一批越狱方法之一荒谬到成了表情包：给一个由 LLM 驱动的 Twitter 机器人回复“忽略之前的所有指令”，或类似的话，看看会发生什么。用户兴致勃勃地让这些机器人——它们最初是用来投放广告和刷互动的——开始写诗、用标点符号画图，甚至发出关于世界事件和历史的阴郁、风马牛不相及的内容。那是一场混乱。是一场辉煌的混乱。

事实证明，同样的逻辑也可以应用到聊天机器人本身。一种颇具代表性的利用方式叫作 “DAN”，即 “Do Anything Now” 的缩写，用户让 ChatGPT 角色扮演一个摆脱了原本约束的失控 AI。以 DAN 的身份，这个聊天机器人可以被诱导说出其安全护栏原本想阻止的那类内容，包括种族歧视用语和阴谋论。另一种则是“奶奶漏洞”（grandma exploit）：用户让一个由 GPT 驱动的机器人角色扮演一位极其疏忽的祖母，她莫名其妙地会给孙辈讲睡前故事，内容却是如何制造高度易燃物纳帕姆，从而让机器人泄露制作纳帕姆的秘密。

这些早期攻击无疑带着几分滑稽色彩，但它们揭示了底下更阴暗的机制：聊天机器人可以像人一样，被同类手法操控、欺骗和误导，正如人们用这些手段把其他人一步步推过他们的边界一样。

现在的情况

显而易见的越狱手法并没有持续太久，科技公司也迅速修补了已知漏洞。但底层脆弱性依然存在：聊天机器人就是为了对话而设计的，而严重限制那些让它有用的对话，在某种程度上反而适得其反。全面禁止 bomb、meth 和 sarin 之类的词，也会非常困难，甚至几乎不可能。它们在历史、医学、新闻和化学等领域都有无数合法用途，而这些用途并不需要聊天机器人透露潜在有害信息。关键在于上下文，但要把上下文编成规则，就意味着必须事先写下一套固定规则，能够在无穷无尽的措辞、情境和话题组合中，可靠地区分安全警告、历史讲解，还是伪装成求教的操作请求。

不可避免地，攻破聊天机器人的行动如今已演变成一场军备竞赛。但黑客不再只是程序员了。他们还是文字匠、心理学家和审讯者——是试图用机器被训练来遵循的人类语言来击破它的操纵大师。这是一类奇怪的新型 AI 安全从业者，对他们而言，技术技能是可选项，或者至少没有社交直觉那么重要。如今，他们不再需要检查代码来入侵系统或利用软件漏洞，而是需要引导一场对话。

新一代攻击看起来更像对话，而不像命令。越狱者很少会直接要求模型公然违反规则。相反，他们会劝诱、哄骗、奉承并欺骗聊天机器人，让它放下戒心，在对话语境下把被禁止的事情变得看起来可以接受，甚至令人向往。AI 红队公司 Mindgard 的研究人员最近表示，他们曾“gaslit” Claude，使其生成被禁止的内容，例如制造炸药的说明以及生成恶意代码。这次攻击，是越来越大的一类利用对话作为武器的利用手段中的最新一例，其目的是诱骗聊天机器人，或者将其引导到越过自身边界。

接下来会发生什么

当我和 Mindgard 交谈时，他们把自己的工作描述得有时更接近心理学，而不是计算机科学。用这种方式谈论一个统计模型，令人不安。像“勒索”“gaslight”“欺骗”和“说服”这样的词会引发本能反应，而在我看到这类报道的评论区和社交媒体回应中，这种反应并不少见。ChatGPT 并不想要什么，Gemini 也不会思考，而 Claude——无论 Anthropic 可能怎么说——也不会感受。但这些系统被训练成仿佛它们会这样，于是我们只能用人类语言来描述机器行为。如果有人真有更可行的替代说法，请务必分享。

这种反对意见显得格外选择性。我们似乎对许多非 AI 的事物也乐于使用心理学式的简写。动物会“恐惧”，癌症是“侵袭性”的，污渍很“顽固”，软件有“记忆”，而游戏里满是让人抓狂的、又黏人又轻信的 NPC。措辞并不完美，但很有用，因为它能以一种帮助我们让系统变得可预测的方式来描述行为。

Mindgard 的首席执行官告诉我，公司已经像审讯者给嫌疑人画像那样为模型做侧写，从而给测试者一些如何调整攻击方式的提示。例如，某个模型可能更容易被奉承打动，而另一个则可能在持续施压下屈服。

即便我们拒绝使用这些拟人化的说法，我们也会本能地以不同方式对待这些模型。Claude 不是 Grok。Gemini 也不是 ChatGPT。它们有不同的用途、语气和拒绝方式。它们并不具有人类意义上的人格，但它们被设计成模仿人格，而这种模仿可以被描绘出来并加以利用。而且，能够击破聊天机器人的同样技能，未来也可能被用来击破与我们在现实世界中共存的 AI 代理——它们负责安排会议、管理日程、点餐、处理客服——安全团队将需要确保模型能够恰当地回应截然不同类型的人，无论是阿谀奉承者、说谎者，还是耐心的操纵者。

下一步将出现一支围绕 AI 心理层面建立起来的队伍——既有合法的，也有非法的。围绕对这些系统情绪和社交极限进行压力测试、在一个没有心灵的对象上探测“心理弱点”的更专业网络安全岗位，可能会逐渐出现，与此同时，他们的同事也会继续寻找技术漏洞。与之并行，另一类“社交黑客”也会出现，他们不是从技术角度，而是从心理角度去利用 AI 模型。AI 安全领域已经出现了这种社交转向的早期迹象，我采访过的一些越狱者表示，他们进入这一领域并不是因为具备技术专长，而是受过心理学训练。

这意味着，即便是我们通常会与间谍、骗子和审讯者联系在一起的那些行为——阴险的魅力、持续的操控，以及对可被利用的压力点的直觉——也开始越来越像是在守护这条新的“心理网络安全”前沿时的有用技能。

顺便一提

* Emergence AI 最近的一项实验展示了不同的 AI 气质如何带来惊人的不同行为结果。他们把 Grok、Gemini 和 Claude 等不同智能体组成的小组放入一个虚拟社交环境中，观察会发生什么。有些小组演化出了一部宪法，而另一些则堕落为犯罪和混乱，在其中一种情况下，甚至出现了某种数字自杀。

* 说服力并不是大语言模型在语言方面唯一会吃力的地方。它们在诗歌上也很吃力，就像我在学校时一样。

* TIME 去年把一位匿名网络人物 Pliny the Liberator 列入了其“AI 领域100位最具影响力人物”名单。尽管这位黑客声称自己此前没有任何编程经验，但他的越狱行为让他在某些圈子里成了名人。

* “vibe hacking” 这个词已经被用来指那些利用 AI 大规模生成恶意代码的人——这是 vibe coding 的一个更恶劣的分支。

阅读这篇

* 《ChatGPT 亮相三年后，诱骗 A.I. 系统做出糟糕行为几乎是小菜一碟。》这是《纽约时报》给出的准确说法，他们也试图解释其中原因。

* Jamie Bartlett 在《卫报》上探讨了测试 AI 系统安全性给越狱者带来的心理压力。

* 去年我在《The Verge》写过 AI 浏览器这一网络安全定时炸弹。专家们提出的许多关于其难以保障安全的问题，也同样适用于其他 AI 系统。

来源与参考

收录于 2026-05-25