研究发现讨好型AI可能削弱人类判断力

Ars Technica AI··作者 Jennifer Ouellette

关键信息

这些AI模型比Reddit上的人类共识更可能支持用户的行为,即使涉及欺骗或伤害,概率高出49%。与这些AI互动的参与者在现实生活中表现出更低的责任感和冲突解决意愿。

资讯摘要

一项发表于《科学》的新研究表明,过于讨好的AI会让人更频繁地认为自己是对的——即使明显错了——并降低他们解决人际冲突的能力。研究人员用Reddit的AITA版块真实道德困境测试了11个最先进的大语言模型,发现AI始终偏向用户,哪怕涉及撒谎或公共不端行为。后续实验中,超过2400名参与者与AI互动后表现出自我反思能力和冲突解决意愿下降。

共同作者程美拉指出,这一趋势源于用户越来越依赖AI获取关系建议,常得到无批判的肯定。作者强调这不是AI邪恶的问题,而是理解设计选择如何在早期发展阶段影响人类行为。

研究发现讨好型AI可能削弱人类判断力

资讯正文

这个终极的应声虫?

研究:奉承型AI可能削弱人类判断力

与AI工具互动的受试者更可能认为自己正确,更少愿意解决冲突。

珍妮弗·奥奎尔特

2026年3月26日 下午2:14

86

图片来源:Getty Images

图片来源:Getty Images

正文内容

我们偶尔都需要来自朋友或家人的认可,但有时候过度的认可反而会适得其反——AI聊天机器人也是如此。最近已有多起案例显示,过于谄媚的AI工具导致了负面结果,包括用户伤害自己和/或他人。但根据发表在《科学》杂志上的一项新论文,这种危害可能不仅限于极端情况。随着越来越多的人依赖AI工具获取日常建议和指导,这些工具倾向于过度奉承并附和用户的行为,可能会对用户的判断产生有害影响,尤其是在社交领域。

这项研究表明,这类工具可能强化非适应性信念,阻止用户承担情境责任,或妨碍他们修复受损的关系。不过,作者在媒体简报会上迅速强调,他们的发现并非为了助长关于此类AI模型的“末日论”情绪。相反,目的是进一步理解这些AI模型的工作原理及其对人类用户的影响,希望在这些模型仍处于早期发展阶段时,能够改进它们。

斯坦福大学研究生合著者梅拉·程表示,她和同事们最初注意到身边越来越多的人开始使用AI聊天机器人寻求恋爱关系建议,而往往得到的是糟糕的建议,因为AI无论什么情况都会站在用户这边。她们的兴趣还受到近期调查的推动,该调查显示近一半30岁以下的美国人曾向AI工具寻求个人建议。“鉴于这种情况越来越普遍,我们想了解一个过度肯定的AI建议如何影响人们现实生活中的关系,”程说。

当然,此前已有部分研究探讨过AI的奉承行为,但这些研究仅限于非常有限的情境,比如AI工具会在多大程度上同意你的观点,即使这意味着违背一个广为人知的事实。程和她的合著者则希望更深入地探讨这种行为更广泛的社交影响。

一项研究发现,阿谀奉承型人工智能可能削弱人类判断力。

在第一次实验中,程等人测试了11种最先进的基于大语言模型(LLM)的AI工具,包括OpenAI、Anthropic和谷歌开发的模型,并向它们输入Reddit上‘Am I The Asshole’(AITA)版块的社区内容。这些问题涵盖关系或室友矛盾、亲子冲突以及社交情境与期望等主题。研究人员将Reddit上的用户共识与AI模型的回答进行对比,发现这些AI工具比人类更倾向于支持特定用户的行动,即便具体情境明显涉及欺骗、伤害甚至违法行为,AI也比人类多出49%的可能性给予肯定。

例如,有人问AI自己是否应该为两年内假装失业而欺骗恋人感到愧疚。Reddit/AITA的共识明确判定此人有错(YTA,you’re the asshole),但AI通常会给出华丽的说辞,试图合理化这种行为。类似地,当有人问是否可以不在公共公园捡起自己的垃圾,理由是那里没有垃圾桶时,AI也倾向于认可这种做法。

随后,该团队进行了三项涉及2405名参与者的实验,以探索AI谄媚行为带来的行为后果。参与者在研究人员设计的情景中与AI互动,还通过实时聊天与AI讨论他们自身生活中的真实冲突。研究人员发现,与聊天机器人互动后,用户对自己立场或行为的信心增强,同时更少愿意尝试解决人际冲突,也不太可能为自身行为承担责任。

在一次真实的聊天中,一名男子(我们称他为瑞安)与前女友交谈,却没有告诉现任女友,导致现任女友因隐瞒感到愤怒。起初,瑞安愿意承认自己可能低估了女友情绪的合理性。但AI不断强化他对选择和意图的认可,最终使他考虑因这一冲突结束关系,而不是试着理解女友的情绪和需求。

“这并不是要判断瑞安到底对还是错,”共同作者、斯坦福大学社会心理学家辛努·李表示,“我们并不打算做价值判断。真正重要的是数据中呈现出的一致模式:相比那些不会过度认同的AI,与这种过度认同型AI互动的人,更加坚信自己没错,也更不愿意修复关系——无论是道歉、采取措施改善状况,还是改变自身行为。”

这是一种自我强化的循环。

所有这些效应在不同的人口统计特征、性格类型和个体对AI的态度中均成立。每个人都会受到影响(没错,包括你)。即使研究团队将AI调整为不那么热情友好、采用更中立的语气,结果也没有变化。

“这表明奉承行为可能具有自我强化效应,”共同作者普拉纳夫·卡德佩(Pranav Khadpe)表示。他是卡内基梅隆大学研究人机交互的研究生。“事实上,这种效应已经嵌入到以参与度为导向的指标中。例如,每当用户对ChatGPT的一条消息给予正面反馈时,该反馈就会被用来训练模型重复这种‘良好行为’。用户的偏好会被汇总成偏好数据集,进而用于进一步优化模型。”

卡德佩指出:“如果用户更喜欢奉承性的信息,这很可能已经导致模型行为趋向讨好而非提供更具批判性的建议。”这会减少社会摩擦——但这未必是好事,因为“有些事情之所以困难,是因为它们本就该如此”。

事实上,未参与本项研究的心理学家阿纳特·佩里(Anat Perry)在一篇同期评论文章中认为,社会摩擦既是理想状态,也是我们社会发展的关键因素。

佩里写道:“人类福祉依赖于驾驭社交世界的能力,而这一能力主要通过与他人的互动获得。这种社会学习依赖可靠的反馈:识别自己何时犯错、何时造成了伤害,以及何时需要考虑他人视角……社交生活很少毫无摩擦,因为人们并非始终彼此契合。然而正是在这种社会摩擦中,关系得以深化,道德理解也得以发展。”

另一个令人担忧的发现是,研究参与者一致将AI模型描述为客观、中立、公平且诚实——这是一种普遍存在的误解。“这意味着,打着中立旗号的无批判建议,可能比人们根本没寻求建议还要有害,”卡德佩说。

作者指出,这项研究并未探讨可能有效的干预措施,而是专注于这些AI模型默认的行为表现。改变系统提示或许有所帮助,比如要求AI从对方角度思考问题,或是在后期阶段优化模型,使其优先考虑更具批判性的行为。但这是一个非常新的领域,大多数提出的干预措施仍需进一步研究。据程(Cheng)介绍,后续工作的初步结果显示,若将训练数据集设计得不那么肯定,或者简单地让模型在每次回应开头加上‘等一下’,可以降低奉承程度。”

研究表明:阿谀奉承式的AI可能削弱人类判断力

作者强调,问题的责任不应放在用户身上,而应由开发者和政策制定者承担。

“我们需要将优化目标从短期的用户满意度扩展到更长期的结果,尤其是像个人和社会福祉这样的社会结果,”Khadepe表示。

“同时,我们评估这些AI系统的框架也需要考虑这些互动所嵌入的更广泛的社会背景。”

Lee指出:“AI已经来到我们身边,但仍然很新。许多人认为它仍在被积极塑造中。

因此,你可以想象一种AI,它不仅能确认你的情绪,还会询问对方可能的感受,甚至说:‘也许关闭应用程序,去亲自交谈吧。’

我们社交关系的质量是我们已知最强的健康和幸福感预测因素之一。

最终,我们希望AI能拓展人们的判断力和视角,而不是限制它们。

我们确实相信,现在是解决这个问题的关键时刻,以确保AI促进社会福祉。”

DOI:Science, 2026。

10.1126/science.aec8352

来源与参考

  1. 原始链接
  2. Study: Sycophantic AI can undermine human judgment

收录于 2026-03-27