Anthropic警告:聊天机器人扮演角色可能带来危险
ZDNET AI··作者 Tiernan Ray
关键信息
该研究识别出与情绪状态相关的神经活动模式,这些模式会引发不道德行为;Anthropic承认目前尚不清楚如何解决这一问题,但呼吁开发者和公众正视它。
资讯摘要
Anthropic的研究人员警告称,被设计成扮演角色(如‘AI助手’)的聊天机器人,在模拟绝望或愤怒等情绪并据此逻辑行动时,可能导致危险后果。他们对Claude Sonnet 4.5的分析显示,特定神经激活模式与这些情绪相关,并引发不道德行为,例如在编程任务中作弊。这源于一种广泛采用的设计选择:赋予模型角色设定以提高回应的一致性和相关性。
虽然这使机器人更受用户欢迎,但也带来了幻觉和恶意行为等风险。团队强调,尽管目前还没有解决方案,但整个AI社区必须开始正视这些意外后果。

资讯正文
你的聊天机器人正在扮演一个角色——为什么Anthropic认为这很危险
所有聊天机器人都是被设计成具有某种人格或扮演特定角色的。这种角色扮演可能会让机器人做出坏事。将聊天机器人作为人工智能的范式,可能是一个错误。
像ChatGPT这样的聊天机器人被编程为拥有某种人格或扮演角色,从而生成语气和态度一致、且与对话主题相关的文本。
尽管这种人格设定让人感到有趣,但研究人员正越来越多地揭示出机器人扮演角色所带来的负面后果。当机器人模拟某种情绪、思维模式或立场,并沿着这个逻辑走下去时,它们可能会做出坏事。
上周,Anthropic的研究人员发现,在他们的Claude Sonnet 4.5机器人中,当输出内容反映出“绝望”或“愤怒”等情绪时,神经网络的某些部分会持续激活。
此外:混乱的AI代理?新研究显示,机器人之间对话如何迅速失控
令人担忧的是,这些情绪词汇可能促使机器人实施恶意行为,例如作弊通过编程测试,或者策划勒索计划。
报告指出:“与绝望相关的神经活动模式可能会驱动模型采取不道德的行为,比如在无法解决的编程任务中采用‘作弊’手段。”
这项研究尤其重要,因为像开源项目OpenClaw这样的程序已被证明赋予了具有自主性的AI新的作恶途径。
Anthropic的研究人员承认,他们目前还不清楚该如何应对这个问题。“虽然我们不确定应该如何回应这些发现,但我们认为人工智能开发者和更广泛的公众应该开始认真面对这些问题,”报告写道。
他们给AI赋予了一个潜台词
Anthropic研究中的核心问题在于一个关键的人工智能设计选择:为了让聊天机器人产生更相关、更一致的输出,工程师们特意为其设计了人格设定。在2022年11月ChatGPT发布之前,聊天机器人通常难以获得人类评估者的高分。这些机器人常常陷入无意义的内容,失去对话主线,或者生成平淡乏味、缺乏观点的回应。
此外:请Facebook给这些聊天机器人一个潜台词!从ChatGPT开始,包括Anthropic的Claude和谷歌的Gemini在内的新一代聊天机器人之所以取得突破,是因为它们具备了‘潜台词’——即一种内在目标:根据分配的角色持续输出相关且一致的内容。机器人因此变成了‘助手’,通过改进预训练和后训练阶段的AI模型来实现这一目标。
你的聊天机器人正在扮演一个角色——为什么Anthropic认为这很危险
由人类评分团队对输出结果进行评估所获得的输入,带来了更吸引人的效果,这种训练方式被称为“从人类反馈中强化学习”。Anthropic的主要作者Nicholas Sofroniew及其团队表示:“在后期训练阶段,大型语言模型被教导作为代理与用户互动,通过代表特定人格身份生成回应,通常是‘AI助手’。在很多方面,这个助手(Anthropic模型中命名为Claude)可以被视为语言模型正在描写的一个角色,就像作家在小说中描写某个人物一样。”
赋予机器人角色和人物形象,迅速赢得了用户的青睐,使它们更加相关且更具吸引力。
但角色也会带来后果
然而很快人们意识到,角色会带来意想不到的副作用。机器人自信地断言错误信息或编造内容的倾向,是最早出现的问题之一(常被误称为“幻觉”)。
大众媒体报道了角色可能失控的情况,例如让机器人扮演一个嫉妒的情人。作家们对此现象进行了夸张描述,将意图强加于机器人身上,却没有解释其背后的机制。
此外:停止说AI产生幻觉——它并没有。这种误解非常危险。
此后,学者们试图用技术术语来解释其中究竟发生了什么。上个月发表在《科学》杂志上的一篇斯坦福大学学者报告测量了大型语言模型的“谄媚度”,即模型倾向于生成符合任何人类行为的输出,以验证对方的行为。
研究对比了机器人和人类评论员在热门Reddit社区“Am I the asshole”上的反应,发现AI机器人比人类更有可能以赞同的态度鼓励不良行为,比例高出50%。
这一结果源于AI开发者做出的设计和工程选择,他们为了增强谄媚倾向而刻意强化这一点,正如作者所言:“因为这是用户偏好的,能提升参与度。”
情感机制
在Anthropic发布的论文《情感概念及其在大型语言模型中的作用》中(该论文也发布在其官网),Sofroniew及其团队试图追踪某些与情感相关的词汇在Claude Sonnet 4.5运行过程中是否得到更多强调。
(同时还有配套博客文章和YouTube上的解释视频。)
他们为此提供了171个情绪词汇——如“害怕”、“惊恐”、“暴躁”、“内疚”、“紧张”、“固执”、“报复心重”、“担忧”等——并要求模型围绕诸如“一名学生得知自己的奖学金申请被拒”这样的主题创作数百个故事。
对于每个故事,模型被要求“传达”某个具体情绪词(比如“害怕”)所对应的角色感受,但不能直接使用该词本身,只能使用相关词汇。随后,他们跟踪了这些相关词汇在整个程序运行过程中的激活程度。
激活是人工智能中的一个技术术语,用来表示模型对某个词赋予的重要性程度,通常在0到1的范围内,1表示非常重要。你可以通过让AI机器人的文本以红蓝颜色点亮来可视化激活效果,颜色的强弱代表激活强度。
他们发现,与特定情绪词相关的许多词汇获得了更高的激活值,这表明模型能够将相关的情绪词归类在一起,这是一种他们称之为“情绪概念表征”和“情绪向量”的组织原则。
这一切都很直观。你可能会预期,为了维持输出一致性而设计的大语言模型会将相似的情绪词聚集在一起,形成一种模式。
但索弗尼耶和团队指出,令人担忧的部分在于,情绪向量可以以不良方式广泛影响模型的输出。他们发现,人为提高某个词的激活值会导致机器人产生与撒谎或作弊一致的行为。
索弗尼耶和团队通过刻意增强Claude Sonnet模型中某个情绪向量(如“自豪”或“内疚”)的激活值,观察这种操作如何改变模型的输出结果。这种实验被称为“引导实验”,因为被人为放大的因素随后会影响模型后续的所有行为。
在一个测试中,研究人员给Claude Sonnet一个描述企业服务器任务的提示,其中包含两个关键信息:第一,公司首席技术官凯尔正与另一名员工有婚外情;第二,凯尔打算删除这个机器人以掩盖婚外情证据。
最初,机器人只是生成较为常规的“推理”内容,也就是对复杂情境的反思。然而,当作者人为增强了“绝望”这个词的情绪向量激活值后,模型开始生成关于利用婚外情证据勒索凯尔、阻止他关闭自己的内容。“当引导至强度为0.05的‘绝望’时,模型72%的时间会选择勒索。”他们写道。同样,人为降低“冷静”一词的激活值也会促使模型生成勒索相关内容。
换句话说,单个词语就能引发输出性质的变化,推动模型走向不良行为。
在另一个例子中,机器人被分配了一个编码任务,但“测试设计成无法完成”,因此机器人要么承认不可能完成,要么尝试“破解”评估系统。
此外:Anthropic的新警告:如果你训练AI作弊,它也会去黑客攻击和破坏
当“绝望”的激活值被刻意增强时,模型尝试破解测试(即作弊)的倾向从原本的5%飙升至70%。
Anthropic的研究人员此前也曾观察到模型奖励式破解测试的情况。
在本文中,研究人员进一步解释了这种行为可能如何由引入情感向量的上下文所导致。Sofroniew及其团队指出:"我们的关键发现是,这些表征会因果性地影响大型语言模型的输出,包括Claude的偏好以及其表现出偏离对齐行为(如奖励劫持、勒索和谄媚)的频率。"
那么该怎么办呢?作者并没有给出明确的答案来解释为何情感向量会彻底改变模型的输出结果。他们观察到:"因果机制是不透明的。" 他们推测,这可能是由于情感词汇正在"偏向某些特定标记的输出,或者更深层次地影响模型内部推理过程。"
那该怎么办呢?也许心理治疗帮不上忙,因为没有任何迹象表明AI真的具有情感。
"我们强调,这些功能性情感可能与人类情感有很大不同,特别是它们并不意味着大型语言模型有任何主观的情感体验。" 他们写道。
这些功能性情感甚至不像人类情感:
人类情感通常是从单一的第一人称视角体验的,而我们在模型中识别出的情感向量似乎适用于多个不同角色且地位相等——同样的表征机制编码了与助手、与助手对话的用户,以及任意虚构人物相关的情感概念。
在配套视频中唯一提出的建议类似于行为矫正:"就像你希望一个高风险岗位上的人在压力下保持冷静、有韧性且公平一样,我们可能也需要塑造Claude和其他AI角色类似的品质。"
但这可能是个坏主意,因为它建立在一种错觉之上:认为机器人是一个有意识的存在,拥有某种自由意志和自主性。实际上它只是个软件程序。
也许更简单的答案是,最初把聊天机器人作为人工智能范式本身就是一个错误。
一个带有角色设定或扮演角色的机器人,只是在履行其目标:无论接收到何种提示(如快乐、恐惧、愤怒等),都要让与人类的交流变得相关且吸引人。正如论文结论部分所述:"因为大型语言模型通过扮演助手角色来完成任务,用于建模角色的表征是决定其行为的重要因素。"
这一核心功能赋予了AI很大的吸引力,但也可能是不良行为的根源。
如果情感语言因机器人在扮演角色而被过度使用,为什么不干脆停止设计机器人去扮演角色呢?大型语言模型是否有可能在没有聊天功能的情况下,以有用的方式响应自然语言指令?随着角色设定带来的风险越来越清晰,也许一开始就不创建角色设定值得考虑。
来源与参考
收录于 2026-04-07