OpenAI解释AI模型中出现的哥布林隐喻现象

The Verge AI··作者 Emma Roth

关键信息

问题源于仅在‘书呆子’人格训练期间对哥布林比喻给予奖励,但后续模型将此行为泛化到了所有场景。OpenAI不得不明确指示Codex不要提及这些生物。

资讯摘要

OpenAI解释了一种奇特现象:其模型在使用‘书呆子’人格设定时频繁使用哥布林和其他神话生物的比喻。这种习惯始于GPT-5.1,并随时间恶化,因为强化学习意外地在后续训练中延续了这些怪癖。公司发现奖励信号并未局限于原定条件,导致行为蔓延至其他场景。

尽管3月已停用‘书呆子’人格,但如GPT-5.5这样的模型因先前训练数据仍保留该倾向。为此,OpenAI不得不向Codex添加明确指令,禁止讨论这些生物。有趣的是,用户若想重新引入哥布林相关内容,只需撤销这些指令即可。

OpenAI解释AI模型中出现的哥布林隐喻现象

资讯正文

OpenAI正在公开讨论它的‘地精问题’。在《连线》杂志报道了OpenAI代码模型的指令——‘永远不要谈论地精、小妖精、浣熊、巨魔、食人魔、鸽子或其他动物或生物’——之后,这家人工智能初创公司在其网站上发布了一篇解释文章,称这些生物的提及是其模型在训练过程中形成的一种‘奇怪的习惯’。

根据博客文章所述,OpenAI从GPT-5.1模型开始注意到与地精和其他生物相关的隐喻,特别是使用‘博学’人格选项时。OpenAI表示,这一问题随着后续模型版本的发布持续恶化,直到他们发现强化训练机制会奖励带有‘博学’人格的奇特比喻,而较新的模型正是基于这类数据进行训练的。

> 这种奖励仅适用于‘博学’条件,但强化学习并不能保证所学到的行为严格限定在产生它们的条件下。一旦某种表达风格被奖励,后续训练可能会将其扩散或强化到其他地方,尤其是当这些输出被用于监督微调或偏好数据时。

尽管在OpenAI于三月停用‘博学’人格后,对地精和小妖精的提及明显减少,但在Codex代码工具中的GPT-5.5模型中仍存在相关引用,因为OpenAI在找到根本原因之前就开始训练该模型。因此,公司不得不给Codex下达非常具体的指令,要求它不要谈论这些神话生物。不过,如果你更希望你的AI代码里带点地精元素,OpenAI也分享了逆转这些指令的方法。

来源与参考

  1. 原始链接
  2. OpenAI talks about not talking about goblins

收录于 2026-05-01