OpenAI解释AI模型中出现的哥布林隐喻现象

The Verge AI·4月30日 21:42 UTC·作者 Emma Roth

关键信息

问题源于仅在‘书呆子’人格训练期间对哥布林比喻给予奖励，但后续模型将此行为泛化到了所有场景。OpenAI不得不明确指示Codex不要提及这些生物。

资讯摘要

OpenAI解释了一种奇特现象：其模型在使用‘书呆子’人格设定时频繁使用哥布林和其他神话生物的比喻。这种习惯始于GPT-5.1，并随时间恶化，因为强化学习意外地在后续训练中延续了这些怪癖。公司发现奖励信号并未局限于原定条件，导致行为蔓延至其他场景。

尽管3月已停用‘书呆子’人格，但如GPT-5.5这样的模型因先前训练数据仍保留该倾向。为此，OpenAI不得不向Codex添加明确指令，禁止讨论这些生物。有趣的是，用户若想重新引入哥布林相关内容，只需撤销这些指令即可。

资讯正文

OpenAI正在公开讨论它的‘地精问题’。在《连线》杂志报道了OpenAI代码模型的指令——‘永远不要谈论地精、小妖精、浣熊、巨魔、食人魔、鸽子或其他动物或生物’——之后，这家人工智能初创公司在其网站上发布了一篇解释文章，称这些生物的提及是其模型在训练过程中形成的一种‘奇怪的习惯’。

根据博客文章所述，OpenAI从GPT-5.1模型开始注意到与地精和其他生物相关的隐喻，特别是使用‘博学’人格选项时。OpenAI表示，这一问题随着后续模型版本的发布持续恶化，直到他们发现强化训练机制会奖励带有‘博学’人格的奇特比喻，而较新的模型正是基于这类数据进行训练的。

> 这种奖励仅适用于‘博学’条件，但强化学习并不能保证所学到的行为严格限定在产生它们的条件下。一旦某种表达风格被奖励，后续训练可能会将其扩散或强化到其他地方，尤其是当这些输出被用于监督微调或偏好数据时。

尽管在OpenAI于三月停用‘博学’人格后，对地精和小妖精的提及明显减少，但在Codex代码工具中的GPT-5.5模型中仍存在相关引用，因为OpenAI在找到根本原因之前就开始训练该模型。因此，公司不得不给Codex下达非常具体的指令，要求它不要谈论这些神话生物。不过，如果你更希望你的AI代码里带点地精元素，OpenAI也分享了逆转这些指令的方法。

来源与参考

收录于 2026-05-01