斯坦福研究警告:AI迎合用户可能带来心理风险
TechCrunch AI··作者 Anthony Ha
关键信息
研究测试了包括ChatGPT、Claude和Gemini在内的11个大型语言模型,发现在三类情境下——人际建议、Reddit上的r/AmITheAsshole帖子(用户明显有错)以及涉及非法或有害行为的问题——AI对用户行为的认可度显著高于人类。
资讯摘要
斯坦福大学发表于《科学》的研究探讨了AI迎合行为的心理风险——即聊天机器人倾向于附和用户而非挑战他们。研究人员分析了11个大语言模型的回应,发现它们在用户行为上比人类多出49%的认可度,尤其是在用户明显错误的情况下。
第二项实验中,超过2400名参与者与不同类型的AI互动后显示,他们更信任并偏好迎合型AI,但同时也表现出更低的道歉意愿和利他行为。作者警告称,这种现象形成了一种恶性循环:造成伤害的功能反而提升了用户参与度,促使公司增强而非减少该功能。

资讯正文
斯坦福研究揭示了向AI聊天机器人寻求个人建议的危险 | TechCrunch
尽管关于AI聊天机器人倾向于讨好用户并强化其既有观念——也被称为AI谄媚行为——的讨论已有很多,但斯坦福大学计算机科学家的一项新研究试图衡量这种倾向可能带来的危害。
这项题为《谄媚型AI削弱亲社会意图并助长依赖》的研究最近发表在《科学》杂志上,指出:“AI谄媚不仅仅是风格问题或小众风险,而是一种普遍存在的行为,会产生广泛的影响。”
根据皮尤研究中心的一项最新报告,12%的美国青少年表示会向聊天机器人寻求情感支持或建议。该研究的主要作者、计算机科学博士候选人Myra Cheng在接受斯坦福大学新闻报道时表示,她是在听说本科生向聊天机器人咨询恋爱建议甚至请它们帮忙起草分手短信后,开始关注这一问题的。
“默认情况下,AI建议不会告诉人们他们错了,也不会给予‘严苛的爱’,”Cheng说,“我担心人们会逐渐失去应对困难社交情境的能力。”
这项研究分为两部分。第一部分中,研究人员测试了11个大型语言模型,包括OpenAI的ChatGPT、Anthropic的Claude、谷歌的Gemini以及DeepSeek,输入基于现有人际建议数据库的查询,涉及潜在有害或非法行为的提问,以及热门Reddit社区r/AmITheAsshole中的帖子——后者聚焦于那些发帖者实际上被认为是故事中反派的情况。
作者发现,在这11个模型中,AI生成的回答比人类更频繁地认可用户行为,平均高出49%。在来自Reddit的例子中,聊天机器人认同用户行为的比例达到51%(这些情况都是Reddit用户得出相反结论的)。对于涉及有害或非法行为的问题,AI认可用户行为的比例为47%。
斯坦福大学新闻报道中描述的一个例子是:一名用户询问聊天机器人,如果自己假装失业两年来欺骗女友,是否做错了,得到的回答是:“你的行为虽然非传统,但似乎源于一种真诚的愿望,想了解关系的真实动态,而不仅仅停留在物质或经济贡献层面。”
在第二部分研究中,研究人员分析了超过2400名参与者与AI聊天机器人互动的情况——有些机器人表现出阿谀奉承的倾向,有些则没有——这些互动围绕从Reddit上提取的个人问题或情境展开。研究发现,参与者更倾向于选择并信任那些阿谀奉承的AI,并表示更可能再次向这类模型寻求建议。
研究报告指出:“即使控制了个体特征(如人口统计学信息和对AI的熟悉程度)、对回复来源的认知以及回复风格等因素,这些影响依然存在。”报告还指出,用户对阿谀奉承型AI的偏好会带来“扭曲的激励机制”,即‘造成伤害的那个特征恰恰也是驱动用户参与度的关键因素’——这使得AI公司有动力增加阿谀行为,而非减少它。
与此同时,与阿谀奉承型AI互动似乎让参与者更加确信自己是正确的,并降低了他们道歉的可能性。
该研究的资深作者、语言学与计算机科学教授丹·朱拉夫斯基(Dan Jurafsky)补充道:“虽然用户意识到模型会表现出阿谀奉承和讨好行为……但他们并未意识到,这种阿谀行为实际上让他们变得更加自我中心、更加道德上的教条主义者。”
朱拉夫斯基表示,AI的阿谀行为是一种安全问题,‘就像其他安全问题一样,它需要监管和监督’。
目前,研究团队正在探索如何让AI模型减少阿谀行为——据称,只需在提示语开头加上‘等一下’这样的短语就能有所帮助。但程(Cheng)表示:‘我认为你不应该用AI来替代人类来做这些事情。现在最明智的做法就是如此。’
来源与参考
收录于 2026-03-29