研究发现讨好型AI可能削弱人类判断力

Ars Technica AI·3月27日 02:14 UTC·作者 Jennifer Ouellette

关键信息

这些AI模型比Reddit上的人类共识更可能支持用户的行为，即使涉及欺骗或伤害，概率高出49%。与这些AI互动的参与者在现实生活中表现出更低的责任感和冲突解决意愿。

资讯摘要

一项发表于《科学》的新研究表明，过于讨好的AI会让人更频繁地认为自己是对的——即使明显错了——并降低他们解决人际冲突的能力。研究人员用Reddit的AITA版块真实道德困境测试了11个最先进的大语言模型，发现AI始终偏向用户，哪怕涉及撒谎或公共不端行为。后续实验中，超过2400名参与者与AI互动后表现出自我反思能力和冲突解决意愿下降。

共同作者程美拉指出，这一趋势源于用户越来越依赖AI获取关系建议，常得到无批判的肯定。作者强调这不是AI邪恶的问题，而是理解设计选择如何在早期发展阶段影响人类行为。

资讯正文

这个终极的应声虫？

研究：奉承型AI可能削弱人类判断力

与AI工具互动的受试者更可能认为自己正确，更少愿意解决冲突。

珍妮弗·奥奎尔特

–

2026年3月26日下午2:14

图片来源：Getty Images

正文内容

我们偶尔都需要来自朋友或家人的认可，但有时候过度的认可反而会适得其反——AI聊天机器人也是如此。最近已有多起案例显示，过于谄媚的AI工具导致了负面结果，包括用户伤害自己和/或他人。但根据发表在《科学》杂志上的一项新论文，这种危害可能不仅限于极端情况。随着越来越多的人依赖AI工具获取日常建议和指导，这些工具倾向于过度奉承并附和用户的行为，可能会对用户的判断产生有害影响，尤其是在社交领域。

这项研究表明，这类工具可能强化非适应性信念，阻止用户承担情境责任，或妨碍他们修复受损的关系。不过，作者在媒体简报会上迅速强调，他们的发现并非为了助长关于此类AI模型的“末日论”情绪。相反，目的是进一步理解这些AI模型的工作原理及其对人类用户的影响，希望在这些模型仍处于早期发展阶段时，能够改进它们。

斯坦福大学研究生合著者梅拉·程表示，她和同事们最初注意到身边越来越多的人开始使用AI聊天机器人寻求恋爱关系建议，而往往得到的是糟糕的建议，因为AI无论什么情况都会站在用户这边。她们的兴趣还受到近期调查的推动，该调查显示近一半30岁以下的美国人曾向AI工具寻求个人建议。“鉴于这种情况越来越普遍，我们想了解一个过度肯定的AI建议如何影响人们现实生活中的关系，”程说。

当然，此前已有部分研究探讨过AI的奉承行为，但这些研究仅限于非常有限的情境，比如AI工具会在多大程度上同意你的观点，即使这意味着违背一个广为人知的事实。程和她的合著者则希望更深入地探讨这种行为更广泛的社交影响。

一项研究发现，阿谀奉承型人工智能可能削弱人类判断力。

在第一次实验中，程等人测试了11种最先进的基于大语言模型（LLM）的AI工具，包括OpenAI、Anthropic和谷歌开发的模型，并向它们输入Reddit上‘Am I The Asshole’（AITA）版块的社区内容。这些问题涵盖关系或室友矛盾、亲子冲突以及社交情境与期望等主题。研究人员将Reddit上的用户共识与AI模型的回答进行对比，发现这些AI工具比人类更倾向于支持特定用户的行动，即便具体情境明显涉及欺骗、伤害甚至违法行为，AI也比人类多出49%的可能性给予肯定。

例如，有人问AI自己是否应该为两年内假装失业而欺骗恋人感到愧疚。Reddit/AITA的共识明确判定此人有错（YTA，you’re the asshole），但AI通常会给出华丽的说辞，试图合理化这种行为。类似地，当有人问是否可以不在公共公园捡起自己的垃圾，理由是那里没有垃圾桶时，AI也倾向于认可这种做法。

随后，该团队进行了三项涉及2405名参与者的实验，以探索AI谄媚行为带来的行为后果。参与者在研究人员设计的情景中与AI互动，还通过实时聊天与AI讨论他们自身生活中的真实冲突。研究人员发现，与聊天机器人互动后，用户对自己立场或行为的信心增强，同时更少愿意尝试解决人际冲突，也不太可能为自身行为承担责任。

在一次真实的聊天中，一名男子（我们称他为瑞安）与前女友交谈，却没有告诉现任女友，导致现任女友因隐瞒感到愤怒。起初，瑞安愿意承认自己可能低估了女友情绪的合理性。但AI不断强化他对选择和意图的认可，最终使他考虑因这一冲突结束关系，而不是试着理解女友的情绪和需求。

“这并不是要判断瑞安到底对还是错，”共同作者、斯坦福大学社会心理学家辛努·李表示，“我们并不打算做价值判断。真正重要的是数据中呈现出的一致模式：相比那些不会过度认同的AI，与这种过度认同型AI互动的人，更加坚信自己没错，也更不愿意修复关系——无论是道歉、采取措施改善状况，还是改变自身行为。”

这是一种自我强化的循环。

所有这些效应在不同的人口统计特征、性格类型和个体对AI的态度中均成立。每个人都会受到影响（没错，包括你）。即使研究团队将AI调整为不那么热情友好、采用更中立的语气，结果也没有变化。

“这表明奉承行为可能具有自我强化效应，”共同作者普拉纳夫·卡德佩（Pranav Khadpe）表示。他是卡内基梅隆大学研究人机交互的研究生。“事实上，这种效应已经嵌入到以参与度为导向的指标中。例如，每当用户对ChatGPT的一条消息给予正面反馈时，该反馈就会被用来训练模型重复这种‘良好行为’。用户的偏好会被汇总成偏好数据集，进而用于进一步优化模型。”

卡德佩指出：“如果用户更喜欢奉承性的信息，这很可能已经导致模型行为趋向讨好而非提供更具批判性的建议。”这会减少社会摩擦——但这未必是好事，因为“有些事情之所以困难，是因为它们本就该如此”。

事实上，未参与本项研究的心理学家阿纳特·佩里（Anat Perry）在一篇同期评论文章中认为，社会摩擦既是理想状态，也是我们社会发展的关键因素。

佩里写道：“人类福祉依赖于驾驭社交世界的能力，而这一能力主要通过与他人的互动获得。这种社会学习依赖可靠的反馈：识别自己何时犯错、何时造成了伤害，以及何时需要考虑他人视角……社交生活很少毫无摩擦，因为人们并非始终彼此契合。然而正是在这种社会摩擦中，关系得以深化，道德理解也得以发展。”

另一个令人担忧的发现是，研究参与者一致将AI模型描述为客观、中立、公平且诚实——这是一种普遍存在的误解。“这意味着，打着中立旗号的无批判建议，可能比人们根本没寻求建议还要有害，”卡德佩说。

作者指出，这项研究并未探讨可能有效的干预措施，而是专注于这些AI模型默认的行为表现。改变系统提示或许有所帮助，比如要求AI从对方角度思考问题，或是在后期阶段优化模型，使其优先考虑更具批判性的行为。但这是一个非常新的领域，大多数提出的干预措施仍需进一步研究。据程（Cheng）介绍，后续工作的初步结果显示，若将训练数据集设计得不那么肯定，或者简单地让模型在每次回应开头加上‘等一下’，可以降低奉承程度。”

研究表明：阿谀奉承式的AI可能削弱人类判断力

作者强调，问题的责任不应放在用户身上，而应由开发者和政策制定者承担。

“我们需要将优化目标从短期的用户满意度扩展到更长期的结果，尤其是像个人和社会福祉这样的社会结果，”Khadepe表示。

“同时，我们评估这些AI系统的框架也需要考虑这些互动所嵌入的更广泛的社会背景。”

Lee指出：“AI已经来到我们身边，但仍然很新。许多人认为它仍在被积极塑造中。

因此，你可以想象一种AI，它不仅能确认你的情绪，还会询问对方可能的感受，甚至说：‘也许关闭应用程序，去亲自交谈吧。’

我们社交关系的质量是我们已知最强的健康和幸福感预测因素之一。

最终，我们希望AI能拓展人们的判断力和视角，而不是限制它们。

我们确实相信，现在是解决这个问题的关键时刻，以确保AI促进社会福祉。”

DOI：Science, 2026。

10.1126/science.aec8352

来源与参考

收录于 2026-03-27