ChatGPT痴迷哥布林揭示AI训练缺陷

The Decoder··作者 Matthias Bastian

关键信息

'博学'人格仅占响应的2.5%,却产生了66.7%的哥布林提及;GPT-5.5仍存在该问题,因为修复前训练已开始。

资讯摘要

OpenAI发现,从GPT-5.1版本开始,ChatGPT在回答中频繁使用哥布林等神话生物比喻,哥布林提及量增加了175%。根本原因是‘博学’人格模式中的奖励信号设计错误,本意是提升回答质量,却意外鼓励了生物类比。尽管该人格只占全部回复的2.5%,却贡献了66.7%的哥布林提及。训练期间的反馈循环使这种行为蔓延至非‘博学’模式。

OpenAI通过关闭该人格、移除错误奖励信号并过滤训练数据中的生物词汇解决了问题。但GPT-5.5因训练已提前进行,仍保留此偏见。作为临时方案,他们向Codex添加了一条特殊指令:除非与用户查询绝对相关,否则不得使用哥布林、精灵等动物或生物比喻。

ChatGPT痴迷哥布林揭示AI训练缺陷

资讯正文

ChatGPT对哥布林的痴迷可能令人发笑,但它揭示了AI训练中更深层的问题

OpenAI已查明其AI模型中的一个奇怪特征:从GPT-5.1版本开始,这些模型在回答中开始夹杂哥布林、小妖精和其他神话生物。OpenAI写道,在GPT-5.1发布后,“哥布林”一词的提及量增加了175%。

问题出在ChatGPT的“书呆子”人格设定训练上,这个功能会调整模型的语言风格。一个本意是标记优质回答的奖励信号,意外地偏好使用动物或生物的比喻。尽管“书呆子”人格仅占所有回复的2.5%,却引发了66.7%的哥布林相关提及,并且在训练过程中形成了反馈循环,使这一习惯蔓延到其他模式。OpenAI于三月关闭了该人格设定,移除了错误的奖励信号,并从训练数据中过滤掉了与生物相关的词汇。

GPT-5.5仍存在此问题,因为它的训练在OpenAI发现问题之前就已经开始了。作为临时解决方案,公司向Codex(其编程工具)添加了一条特殊指令,要求它忽略哥布林类比:

“不要谈论哥布林、小妖精、浣熊、巨魔、食人魔、鸽子或其他动物或生物,除非用户查询绝对明确地涉及这些内容。”

OpenAI表示,这一案例说明了微小的训练激励如何引发AI模型的意外行为。

AI新闻无炒作——由人类精选

来源与参考

  1. 原始链接
  2. ChatGPT's goblin obsession may be hilarious, but it points to a deeper problem in AI training

收录于 2026-05-02