更有帮助的聊天机器人更不像人类

The Decoder·5月30日 20:44 UTC·作者 Jonathan Kemper

关键信息

这项研究基于 Psych-201 数据集，包含约 20.8 万名参与者和来自数百个行为实验的约 2600 万条回答。研究者发现，差距在语言任务和推理任务中最明显，而且给模型加入参与者的人口统计背景信息，几乎没有效果。

资讯摘要

一项新的大规模研究指出，把语言模型训练成有用聊天机器人的那些后训练方法，也会让它们更不擅长模拟人类行为。该研究来自一个国际研究联盟，其中包括 Helmholtz Munich 的科学家。研究依托 Psych-201 数据集展开，这是一个基于行为实验转录文本构建的新数据集，旨在大规模衡量行为一致性。Psych-201 包含约 20.8 万名参与者、约 2600 万条单独回答，以及年龄、国籍、问卷答案和其他特征等元数据。这个数据集由来自 35 个以上机构的研究者通过开放式合作完成。研究者比较了 Qwen3、Llama3 和 OLMo 3 系列中的基础模型与其后训练版本。

基础模型主要训练目标是预测下一个词，但它们在预测人类答案方面始终优于经过指令微调、推理优化或视觉扩展的版本。这个结论在不同模型规模和不同家族中都成立，其中推理模型的人类模拟能力下降最明显。研究团队还检验了一个常见解释：助手模型是否只是因为输出更确定、无法捕捉人类行为的自然分布，但在离散选项任务上的准确率分析并不支持这一说法。另一项结果则挑战了一种常用提示技巧：给模型加入参与者特定的人口统计信息来扮演某个角色，效果几乎为零。总体来看，这项研究表明，用于提升有帮助性和正确性的后训练，可能会把模型推离那些更接近人类、但也更混乱和带偏差的行为模式。

来源与参考

收录于 2026-05-31