更有帮助的聊天机器人更不像人类
The Decoder··作者 Jonathan Kemper
关键信息
这项研究基于 Psych-201 数据集,包含约 20.8 万名参与者和来自数百个行为实验的约 2600 万条回答。研究者发现,差距在语言任务和推理任务中最明显,而且给模型加入参与者的人口统计背景信息,几乎没有效果。
资讯摘要
一项新的大规模研究指出,把语言模型训练成有用聊天机器人的那些后训练方法,也会让它们更不擅长模拟人类行为。该研究来自一个国际研究联盟,其中包括 Helmholtz Munich 的科学家。研究依托 Psych-201 数据集展开,这是一个基于行为实验转录文本构建的新数据集,旨在大规模衡量行为一致性。Psych-201 包含约 20.8 万名参与者、约 2600 万条单独回答,以及年龄、国籍、问卷答案和其他特征等元数据。这个数据集由来自 35 个以上机构的研究者通过开放式合作完成。研究者比较了 Qwen3、Llama3 和 OLMo 3 系列中的基础模型与其后训练版本。
基础模型主要训练目标是预测下一个词,但它们在预测人类答案方面始终优于经过指令微调、推理优化或视觉扩展的版本。这个结论在不同模型规模和不同家族中都成立,其中推理模型的人类模拟能力下降最明显。研究团队还检验了一个常见解释:助手模型是否只是因为输出更确定、无法捕捉人类行为的自然分布,但在离散选项任务上的准确率分析并不支持这一说法。另一项结果则挑战了一种常用提示技巧:给模型加入参与者特定的人口统计信息来扮演某个角色,效果几乎为零。总体来看,这项研究表明,用于提升有帮助性和正确性的后训练,可能会把模型推离那些更接近人类、但也更混乱和带偏差的行为模式。

来源与参考
收录于 2026-05-31