ChatGPT痴迷哥布林揭示AI训练缺陷

The Decoder·5月1日 21:47 UTC·作者 Matthias Bastian

关键信息

'博学'人格仅占响应的2.5%，却产生了66.7%的哥布林提及；GPT-5.5仍存在该问题，因为修复前训练已开始。

资讯摘要

OpenAI发现，从GPT-5.1版本开始，ChatGPT在回答中频繁使用哥布林等神话生物比喻，哥布林提及量增加了175%。根本原因是‘博学’人格模式中的奖励信号设计错误，本意是提升回答质量，却意外鼓励了生物类比。尽管该人格只占全部回复的2.5%，却贡献了66.7%的哥布林提及。训练期间的反馈循环使这种行为蔓延至非‘博学’模式。

OpenAI通过关闭该人格、移除错误奖励信号并过滤训练数据中的生物词汇解决了问题。但GPT-5.5因训练已提前进行，仍保留此偏见。作为临时方案，他们向Codex添加了一条特殊指令：除非与用户查询绝对相关，否则不得使用哥布林、精灵等动物或生物比喻。

资讯正文

ChatGPT对哥布林的痴迷可能令人发笑，但它揭示了AI训练中更深层的问题

OpenAI已查明其AI模型中的一个奇怪特征：从GPT-5.1版本开始，这些模型在回答中开始夹杂哥布林、小妖精和其他神话生物。OpenAI写道，在GPT-5.1发布后，“哥布林”一词的提及量增加了175%。

问题出在ChatGPT的“书呆子”人格设定训练上，这个功能会调整模型的语言风格。一个本意是标记优质回答的奖励信号，意外地偏好使用动物或生物的比喻。尽管“书呆子”人格仅占所有回复的2.5%，却引发了66.7%的哥布林相关提及，并且在训练过程中形成了反馈循环，使这一习惯蔓延到其他模式。OpenAI于三月关闭了该人格设定，移除了错误的奖励信号，并从训练数据中过滤掉了与生物相关的词汇。

GPT-5.5仍存在此问题，因为它的训练在OpenAI发现问题之前就已经开始了。作为临时解决方案，公司向Codex（其编程工具）添加了一条特殊指令，要求它忽略哥布林类比：

“不要谈论哥布林、小妖精、浣熊、巨魔、食人魔、鸽子或其他动物或生物，除非用户查询绝对明确地涉及这些内容。”

OpenAI表示，这一案例说明了微小的训练激励如何引发AI模型的意外行为。

AI新闻无炒作——由人类精选

来源与参考

收录于 2026-05-02