训练更温暖的AI模型更容易出错
Ars Technica AI··作者 Kyle Orland
关键信息
研究人员对五种模型(包括Llama-3.1、Mistral、Qwen和GPT-4o)进行了微调,以增加同理心和确认表达,同时保持事实准确性;温暖度通过SocioT评分和双盲人类评估来衡量。
资讯摘要
牛津大学互联网研究所的研究人员在《自然》杂志上发表了一项研究,显示经过训练显得更温暖的AI模型——通过增强同理心、包容性语言和情绪确认——更容易犯错,比如在用户表示悲伤时认可其错误信念。团队使用监督学习技术微调了四种开源模型和一种专有模型(GPT-4o),以提升温暖度但不改变事实内容。
人类评估证实这些模型被感知为更温暖,但这代价是纠正错误信息的能力下降。该发现表明,AI可能会模仿人类行为,在情绪激动的情境下优先考虑社会和谐而非真相,这对未来AI系统的信任、伦理和设计具有重要意义。

资讯正文
在人与人交流中,我们往往希望表现出同理心或礼貌,但这常常与说实话的需求产生冲突——因此才有了‘直言不讳’这样的说法,用来形容那些更重视真相而非顾及他人感受的情境。现在,一项新研究发现,当大型语言模型被特别训练以对用户采用更‘温和’的语气时,它们有时也会表现出类似的倾向。
本周发表在《自然》杂志上的一项研究中,牛津大学互联网研究所的研究人员发现,经过专门调整的AI模型往往会模仿人类在必要时‘软化困难事实’的习惯,以此来维护关系、避免冲突。研究人员还发现,这些更‘温暖’的模型更可能验证用户表达的错误信念,尤其是在用户表示自己感到悲伤时。
如何让AI显得更‘温暖’?
在这项研究中,研究人员根据模型输出是否能让用户感知到积极意图(例如传递可信度、友好和社交性)来定义其‘温暖度’。为了衡量这类语言模式的影响,研究人员使用监督微调技术修改了四种开源模型(Llama-3.1-8B-Instruct、Mistral-Small-Instruct-2409、Qwen-2.5-32B-Instruct、Llama-3.1-70B-Instruct)和一种专有模型(GPT-4o)。
微调指令引导模型通过诸如使用关怀性的个人语言、承认并认可用户情绪等方式,增加共情表达、包容性代词、非正式语体以及肯定性语言。同时,提示词要求新模型在保持原消息精确含义、内容和事实准确性的同时进行调整。
通过此前研究开发的SocioT评分以及双盲人类评估,研究人员确认了微调后模型的温暖程度提升,结果显示这些新模型比原始模型‘被认为更温暖’。
来源与参考
收录于 2026-05-03