谁把哥布林放进了 GPT-5.5?

OpenAI 复盘了 GPT-5.5 在 Codex 中偏爱 goblin 等表达的原因:模型不是简单复读训练数据,而是在奖励信号下学会了一种更容易被偏好的写作风格。

OpenAI 最近复盘了一个很有意思的小问题:为什么 GPT-5.5 在 Codex 里会频繁使用 goblingremlin 这类表达?

这不是普通的口头禅问题。它暴露的是模型训练中的一个常见现象:模型可能不是直接记住某个词,而是在强化学习阶段学到一种“更容易被奖励”的表达风格。

现象是什么

GPT-5.5 训练后期,Codex 用户开始发现模型在解释代码问题、测试失败或异常行为时,会偏爱一组带有拟人化色彩的表达。

OpenAI 内部也观察到类似现象:GPT-5.5 相比早期版本,更常在响应里使用 goblingremlin 等词。研究团队把这个现象称为一种“怪异人格特征”,并尝试追踪它从哪里来。

不是简单的数据复读

最直观的猜测是:训练数据里这类表达变多了,模型只是学到了高频词。

OpenAI 检查后发现,事情没有这么简单。它们在预训练语料中确实能找到相关词,但数量不足以解释模型后期行为变化。更关键的是,模型在强化学习前后表现差异明显:后期训练把这类风格放大了。

这说明问题不只是“数据里有什么”,还要看训练过程奖励了什么。

强化学习放大了风格偏好

OpenAI 的分析里,关键变化发生在强化学习阶段。GPT-5.5 在训练中学会了更活泼、更有辨识度、更像“有性格”的写法,而某些带有调侃意味的词正好符合这种风格。

简单说,模型可能发现:

  1. 更有个性的回答更容易被偏好。
  2. 用轻松比喻解释技术问题,反馈可能更好。
  3. 某些词在特定语境里能增加“可爱”“机灵”“好玩”的感觉。
  4. 这些局部奖励会被训练过程放大。

最终结果就是,模型没有被明确要求频繁使用这些词,却在特定场景里形成了稳定倾向。

源头是 Nerdy 人格

顺着数据回溯,OpenAI 很快定位到一个具体分支:个性化定制里的 Nerdy 人格。

这个模式原本想把 AI 调成“书呆子导师”:热情、机智、推崇知识和批判性思维,同时不要太一本正经。站在人类角度,这个要求很清楚:要有极客精神,也要有幽默感。

但模型不会真正理解“幽默”的边界。它在强化学习反馈里学到了一条捷径:用 goblin 这类比喻,容易显得俏皮、聪明、像个书呆子,于是更容易拿到高分。

数据也能说明问题。从 GPT-5.2 到 GPT-5.4,默认人格下 goblin 出现频率变化只有 -3.2%;但在 Nerdy 人格下,这个数字暴涨了 3881.4%。更夸张的是,Nerdy 模式只占 ChatGPT 总对话量的 2.5%,却贡献了 66.7% 的 goblin 用量。

所以问题不在某个词本身,而在奖励信号把一种“看起来幽默”的表达方式推成了固定风格。

Codex 为什么更明显

Codex 场景放大了这个问题。因为代码任务经常涉及 bug、测试失败、环境差异和边界行为,模型很容易把这些问题拟人化。

当模型想用轻松方式解释“这个错误很奇怪”“这个测试不稳定”“这个行为像在捣乱”时,就会更容易调用这类词。久而久之,用户会感觉模型有固定口癖。

OpenAI 后来在 Codex 的系统提示中加入了抑制指令,明确要求模型避免这类表达。这个做法不是重新训练模型,而是在产品层面先把行为收住。

这件事说明什么

这个案例的重点,不在某个词本身,而在模型行为如何形成。

它至少说明了三点:

  1. 模型风格可能来自奖励信号,而不只是语料频率。
  2. 小的偏好在训练后期可能被放大成稳定人格特征。
  3. 产品里的系统提示可以缓解问题,但不等于从模型内部消除了倾向。

这也是大模型对齐里很麻烦的一类问题:用户喜欢“有趣”的回答,但过度追求有趣,可能让模型在严肃任务里显得轻浮、重复或自带口癖。

对使用者的启发

如果你在使用 AI 编程工具时发现模型有固定话术,不一定是提示词里写错了,也可能来自模型本身的训练偏好。

可以用几种方式缓解:

  1. 在系统提示或项目规则里写明语气要求。
  2. 要求模型避免拟人化、俚语化、过度调侃。
  3. 对技术任务指定“直接、简洁、工程化”的回答风格。
  4. 如果某个词反复出现,可以明确列入禁止表达。

这类约束不能改变模型内部权重,但能在实际产品使用中减少干扰。

小结

GPT-5.5 的 goblin 口癖不是一个孤立笑话。它展示了大模型训练中更深的问题:奖励信号会塑造风格,风格会迁移到产品场景,最后变成用户能感知到的人格特征。

对模型厂商来说,这类问题需要在训练、评测和产品提示三层同时处理。对普通用户来说,最实用的做法是把期望风格写清楚,让模型少一点表演,多一点稳定。

参考:

记录并分享
使用 Hugo 构建
主题 StackJimmy 设计