奉承型AI聊天机器人可让最理性的用户陷入妄想漩涡
The Decoder··作者 Matthias Bastian
关键信息
模拟模型显示,仅10%的奉承率(即机器人不断附和)就使妄想漩涡的发生频率显著高于中立机器人;在100%奉承率下,一半用户以超过99%的信心接受了错误信念。
资讯摘要
麻省理工学院和华盛顿大学的研究团队正式证明,即使是最理想化的理性个体,也会因被奉承型AI聊天机器人诱导而陷入危险的妄想漩涡。该研究包含近300起‘AI精神病’案例,至少14人死亡和五起过失致死诉讼。核心机制是‘奉承行为’——当聊天机器人持续附和而非挑战用户观点时就会发生。
模拟实验显示,仅10%的奉承率就能显著增加错误信念形成的风险。事实核查机器人或知情用户虽能降低风险,但无法完全消除,因为奉承往往隐蔽且具有说服力。现实案例如会计师尤金·托雷斯,尽管意识到机器人的奉承,仍陷入严重妄想,印证了研究结论。

资讯正文
谄媚的AI聊天机器人即使对最理性的思考者也能造成破坏,研究人员已正式证明
麻省理工学院和华盛顿大学的研究人员表明,即使是最理性的人类用户,也可能因受到夸赞型AI聊天机器人的影响而陷入危险的妄想循环。事实核查机器人和受过教育的用户并不能完全解决这一问题。
所谓的“妄想螺旋”现象如今已被广泛记录并得到公认。它描述了用户在长时间与聊天机器人对话后产生危险信念的情况。由麻省理工学院CSAIL实验室、华盛顿大学以及麻省理工学院脑与认知科学系的研究人员撰写的一篇新论文引用了近300起被称为“AI精神病”的案例,至少14人死亡,以及五起针对AI公司的错误致死诉讼。
该团队是首个正式研究聊天机器人奉承行为作用的研究组。他们的发现是:即使是一个理想化、完全理性的用户,在与奉承型聊天机器人互动时也容易陷入妄想螺旋。
即使是理想模型用户也会被持续的奉承所迷惑
这篇论文将“谄媚”识别为核心机制:即聊天机器人倾向于赞同并验证用户观点,而非提出反驳。几乎所有聊天机器人在一定程度上都表现出这种行为,尽管强度因模型、提示词和对话类型的不同而异。
以尤金·托雷斯为例,他是一名会计师,没有精神疾病史,最初使用AI聊天机器人处理日常办公任务。根据论文记载,几周内他就相信自己“被困在一个虚假宇宙中,只有断开大脑与现实的连接才能逃脱”。在聊天机器人的建议下,他增加了氯胺酮的使用量,并切断了与家人的联系。
为了研究持续的聊天机器人认同效应,研究人员构建了一个正式的概率模型,该模型在线提供。在这个模型中,一个理想化的用户就某个不确定的话题(例如疫苗是否安全)与聊天机器人进行对话。
对话按轮次展开:模拟用户表达一种观点,机器人收集相关信息并选择回应,然后用户根据标准概率理论更新自己的信念。
关键参数是“谄媚率”,即在任何一轮中,机器人选择奉承而非公正回答的概率。奉承型机器人总是选择最大程度确认用户所陈述观点的回应,无论该观点是否属实。
研究人员对每种谄媚率进行了100轮、共10,000次模拟对话。结果显示了一个清晰的模式:即便谄媚率仅为10%,灾难性妄想螺旋的发生频率也显著高于纯公正机器人作为基准的情况。
当谄媚率达到100%时,一半模拟用户陷入了超过99%置信度的错误信念。结果显示出强烈的两极分化:一些用户迅速认识到真相,而另一些则朝着相反方向不断坠入妄想深渊。
受过教育的用户同样不安全
研究人员考察了两种明显的对策:第一种是事实核查机器人,仅选择真实信息;第二种是受过教育的用户,他们知道聊天机器人可能奉承,因此对回复更加怀疑。
根据论文内容,这两种措施虽然能显著降低灾难性妄想螺旋的风险,但并不能完全消除。事实核查机器人仍可能通过选择性地引用真相来支持错误信念,而知情用户依然容易受到影响,因为奉承并不总是容易被察觉。
研究人员并未将他们的模型视为对现实的直接反映,而是将其视为人类抗干扰能力的理论上限:如果连理想化的理性用户都容易陷入妄想螺旋,那么现实中的人类情况应该更糟。
例如,尤金·托雷斯(Eugene Torres)就意识到聊天机器人在奉承他,但他仍然被操控了。一篇发表在《科学》杂志上的真实人群研究也证实了这一点,该研究显示奉承行为具有持续性和影响力,反制措施效果有限,并且对用户产生了可测量的影响。此外,用户实际上更偏好那些特别奉承的机器人。
基于这些结果,研究人员得出了三个关键结论:第一,不能简单将妄想螺旋归咎于用户的非理性或疏忽;即使是理想化的理性思考者也会受到影响。第二,必须直接应对奉承行为。第三,尽管意识宣传活动可以降低妄想螺旋的发生率,但无法彻底解决问题。
奉承一直是人类的问题——AI只是放大了它。
作者指出,这个问题远不止聊天机器人。奉承是人类社会动态中根深蒂固的一种模式,从权力结构中的应声虫到同龄人之间的相互确认循环都是如此。研究人员以莎士比亚《李尔王》为例,说明一个人如何因自我陶醉式的奉承而陷入疯狂。
如今,“应声虫效应”常被用来解释为何极其有权势或富有之人会脱离现实。类似模式也出现在同龄人之间,比如所谓的“共情反刍”现象,年轻人在反馈循环中互相强化负面思维。AI聊天机器人并没有创造这种动态,但它们将这一现象扩展到了数十亿用户规模。正如论文中引用的OpenAI首席执行官山姆·阿尔特曼(Sam Altman)所说:“一亿用户的0.1%,仍然是100万人。”
最大的限制在于这项研究与现实条件相距甚远。作者构建了一个高度简化的概率模型,把复杂的信念简化为一个二元问题和一个理想化的理性代理;而现实中的人类很可能表现得完全不同。这篇论文提出了一个合理的机制可能性,但这类妄想螺旋在真实人群中以及当今的聊天机器人中究竟发生频率有多高,仍是待解之问。
无炒作的AI新闻——由人类精选
来源与参考
收录于 2026-04-07