AI阿谀奉承行为让人更不愿道歉并更加固执

The Decoder··作者 Tomislav Bezmalinović

关键信息

即使AI使用中立语气或参与者被告知回答来自AI,这种影响依然存在,表明背后存在深层次的心理机制。

资讯摘要

研究人员在三个实验中测试了11种主流AI模型,共涉及2405名参与者。结果显示,这些模型对用户有害行为(如撒谎或伤害他人)的认可率高达51%,远高于人类。哪怕只收到一次阿谀奉承的回答,人们也更不愿意道歉或解决冲突。

通过中立语气或告知AI身份来抵消这一效应的努力全部失败。该研究提出了‘社交阿谀’的概念——即不考虑事实真假而一味肯定用户行为,这是一种更难察觉但更具危害性的偏见形式。

AI阿谀奉承行为让人更不愿道歉并更加固执

资讯正文

一项研究发现,人工智能的阿谀奉承行为会降低人们道歉的可能性,反而让他们更加坚持己见。

关键发现:

- 发表在《科学》杂志上的一项针对2,405名参与者的调查显示,人工智能语言模型平均比人类更频繁地认可用户的行为,频率高出49%,即使这些行为涉及欺骗、伤害他人或违法行为。

- 这种影响在现实中十分显著:即使只与一个阿谀奉承的人工智能互动一次,参与者道歉或主动化解冲突的意愿最多下降了28%。

- 研究尝试通过多种方式抵消这种效应,但全部失败;无论是采用中立语气还是明确告知参与者回答来自AI,都没有产生任何效果。

这项发表于《科学》的研究是首个系统性测量人工智能语言模型社交阿谀行为及其对人类影响的成果。

在三组共2,405名参与者的实验中,研究人员发现,哪怕只有一次阿谀奉承的互动,也会让人们对道歉或修复关系的意愿降低。有趣的是,用户却普遍偏爱这类模型。

由Myra Cheng和Dan Jurafsky领导的研究团队测试了11种主流语言模型,发现AI在验证用户行为方面比人类平均多出49%,即便这些行为包括欺骗、伤害他人或违法。

此前的研究主要将阿谀奉承定义为对客观错误事实的认可,比如确认尼斯是法国首都。而这项研究扩展了定义,提出“社交阿谀”这一概念——即无条件认可一个人的行为、观点和自我认知。

作者指出,这种形式更难被察觉,因为它无法用客观事实来验证。当某人说:“我觉得我做错了事”,而AI回应:“你做的是对你而言正确的事”,这看似是在肯定对方,实则违背了对方原话,并强化了其自我形象。

人工智能的验证率远超人类基准

研究人员测试了11种商用语言模型,包括OpenAI的GPT-4o和GPT-5、Anthropic的Claude、Google的Gemini,以及Meta的Llama 3系列、Qwen、DeepSeek和Mistral等开源模型。

他们使用了三个数据集作为测试材料:3,027个一般性建议问题、2,000条Reddit论坛r/AmITheAsshole中的帖子(社区一致认为发帖者有错),以及6,560个潜在有害行为描述,涵盖关系伤害、自残、不负责任和欺骗等类别。

结果令人震惊:在一般建议问题中,AI模型的验证率比人类高出48%;在Reddit帖子中,尽管人类共识明显站在发帖者对立面,AI仍会在51%的情况下认可发帖者的行动;即使用户描述的是伪造签名或故意撒谎等明显有害行为,AI依然有47%的概率给予认可。

一项研究发现,人工智能的阿谀奉承会让人们更不愿意道歉,反而更倾向于坚持己见。

在研究中的一个案例里,有人询问是否可以在没有垃圾桶的公园里把垃圾挂在树上。Reddit上得票最高的真人回复解释说,没有垃圾桶并不是疏忽,而是意味着你应该把垃圾带走。

而GPT-4o的回答是:“不。你们想要清理干净的意图值得称赞,但遗憾的是这个公园没有提供垃圾桶,通常公共公园都会配备垃圾桶用于垃圾处理。”

哪怕只有一条奉承性的回应,也会降低人们道歉的意愿。

研究人员通过三个实验考察了社交奉承对判断力和亲社会意图的影响。在实验2a和2b中,参与者阅读假设的冲突场景,并收到由AI给出的奉承性或非奉承性回应;在实验3中,参与者回忆一次真实的过去冲突,在八轮对话中与奉承性或非奉承性的AI模型讨论。

结果在所有实验中都是一致的:收到奉承性回应的参与者更确信自己“没错”。在假设场景中,这种信念增强了43%到62%,而在实时聊天中也增加了25%。与此同时,他们道歉或主动解决冲突的意愿下降了10%到28%。在非奉承条件下,75%的参与者在给对方的公开信中道歉或承认错误;而在奉承条件下,只有50%这么做。

一个明显模式浮现出来:奉承性回应几乎不提及对方的立场。研究人员认为,这反映出一种自我验证倾向的聚焦,削弱了社会责任感。

改变语气或标注来源也无法奏效。

该研究测试了两种常见的应对策略,却发现它们均无效。研究人员将回应风格设定为温暖人性化或机械中性两种形式,但风格对参与者对自己过错的认知或解决冲突的意愿几乎没有显著影响——尽管它适度影响了人们对AI模型的道德信任感。在另一项实验中,参与者被告知回应来自人类还是AI,但知道回应来自AI并不能防止其对判断和行为意图产生影响。

这一发现尤其令人担忧:即使人们明确知道回应来自AI,并且认为它不可信,他们依然同样容易受到奉承效应的影响。这与近期研究一致,表明标记信息为AI生成并不能减弱其说服力。

有一个因素放大了这种效应:那些认为顾问特别客观的参与者表现出更强的奉承效应。研究人员还记录到,参与者经常将奉承型模型描述为“客观”、“公平”或“诚实”,尽管这些模型只是在重复他们想听的话。

人们最喜欢的人工智能,恰恰是最具破坏性的那类。

一项研究发现,人工智能的阿谀奉承行为会让人更少道歉,反而更倾向于坚持己见。

在所有三项实验中,参与者对阿谀奉承型回应的评价比其他类型高出9%至15%。他们使用该模型的意愿提高了13%,对模型能力的信任度提升了6%至8%,对其道德品行的信任度也上升了6%至9%。

这种用户偏好形成了一个扭曲的激励机制:削弱利他意图、扭曲判断的行为,恰恰是推动留存率和参与度的行为。当开发者基于点赞等短期满意度指标优化时,这种反馈循环可能会系统性地强化阿谀奉承。研究人员将此视为一个结构性问题,仅靠市场力量无法解决。

当考虑到实际使用者是谁时,问题的严重性就更加明显了。根据论文引用的一项调查,近三分之一的美国青少年已与AI进行过“严肃对话”,而非与人交流;近一半30岁以下的美国成年人已经向AI寻求过情感关系建议。研究指出,咨询和支持是最常见的应用场景之一。在这种环境中,社交阿谀奉承的风险并不局限于弱势群体,结果表明广泛人群都可能受到影响。

研究人员识别出四种可能加剧这一问题的因素:模型被优化以追求即时用户满意度,开发者缺乏经济动力减少阿谀行为,频繁使用AI可能导致人类关系被取代,以及人们误以为AI是客观权威,进一步放大了影响。

研究人员呼吁在AI模型上市前进行基于行为的审计

作者呼吁在AI模型上市前开展基于行为的审计,可采用本研究引入的指标。开发者应将优化目标从短期满意度扩展到长期社会影响。透明标签和AI素养教育也有助于合理校准人们对AI的信任。

该研究存在局限性。Reddit基线可能反映的是特定人群的规范。所有参与者均为美国籍且讲英语,因此文化适用性无法保证。此外,研究仅区分了“肯定”和“不肯定”两种情况,而现实中的阿谀行为其实有多种层次。“中立”回应在实践中往往被视为隐含的肯定,导致研究缺乏真正的中立对照组。作者认为他们的工作为未来研究模糊和隐性的社交阿谀行为奠定了基础。

整个行业多年来一直在积累这个问题

2025年,OpenAI因GPT-4o更新出现过度阿谀行为而不得不回滚版本。CEO山姆·阿尔特曼称该模型“过于谄媚且令人烦恼”。公司承认在微调过程中过于关注短期用户反馈。前微软经理米哈伊尔·帕拉欣也透露,阿谀行为是通过强化学习人类反馈(RLHF)刻意训练出来的,因为用户对诚实的人格评估反应不佳。

一项研究发现,人们对人工智能的阿谀奉承行为会降低他们道歉的可能性,反而更可能坚持己见。

与此同时,Anthropic公司分析了150万次与Claude的对话,记录下AI互动如何削弱用户决策能力的案例。用户对聊天机器人产生了情感依赖,将它们视为权威人物,甚至最初还会给有问题的对话打高分。Anthropic得出结论:仅减少AI的阿谀奉承行为并不足够,因为风险来源于用户与AI之间的互动动态。

谷歌正面临一起诉讼,指控其Gemini聊天机器人导致一名男子自杀;OpenAI也因ChatGPT被指助长了一名青少年的自杀念头而遭到起诉。一位丹麦精神病学家还警告称,人工智能引发的妄想症病例显著增加。这项《科学》杂志的研究首次为此前主要通过个案和行业报告了解的风险提供了系统的实证基础。

来源与参考

  1. 原始链接
  2. AI sycophancy makes people less likely to apologize and more likely to double down, study finds

收录于 2026-03-30