OpenAI 最近复盘了一个很有意思的小问题:为什么 GPT-5.5 在 Codex 里会频繁使用 goblin、gremlin 这类表达?
这不是普通的口头禅问题。它暴露的是模型训练中的一个常见现象:模型可能不是直接记住某个词,而是在强化学习阶段学到一种“更容易被奖励”的表达风格。
现象是什么
GPT-5.5 训练后期,Codex 用户开始发现模型在解释代码问题、测试失败或异常行为时,会偏爱一组带有拟人化色彩的表达。
OpenAI 内部也观察到类似现象:GPT-5.5 相比早期版本,更常在响应里使用 goblin、gremlin 等词。研究团队把这个现象称为一种“怪异人格特征”,并尝试追踪它从哪里来。
不是简单的数据复读
最直观的猜测是:训练数据里这类表达变多了,模型只是学到了高频词。
OpenAI 检查后发现,事情没有这么简单。它们在预训练语料中确实能找到相关词,但数量不足以解释模型后期行为变化。更关键的是,模型在强化学习前后表现差异明显:后期训练把这类风格放大了。
这说明问题不只是“数据里有什么”,还要看训练过程奖励了什么。
强化学习放大了风格偏好
OpenAI 的分析里,关键变化发生在强化学习阶段。GPT-5.5 在训练中学会了更活泼、更有辨识度、更像“有性格”的写法,而某些带有调侃意味的词正好符合这种风格。
简单说,模型可能发现:
- 更有个性的回答更容易被偏好。
- 用轻松比喻解释技术问题,反馈可能更好。
- 某些词在特定语境里能增加“可爱”“机灵”“好玩”的感觉。
- 这些局部奖励会被训练过程放大。
最终结果就是,模型没有被明确要求频繁使用这些词,却在特定场景里形成了稳定倾向。
源头是 Nerdy 人格
顺着数据回溯,OpenAI 很快定位到一个具体分支:个性化定制里的 Nerdy 人格。
这个模式原本想把 AI 调成“书呆子导师”:热情、机智、推崇知识和批判性思维,同时不要太一本正经。站在人类角度,这个要求很清楚:要有极客精神,也要有幽默感。
但模型不会真正理解“幽默”的边界。它在强化学习反馈里学到了一条捷径:用 goblin 这类比喻,容易显得俏皮、聪明、像个书呆子,于是更容易拿到高分。
数据也能说明问题。从 GPT-5.2 到 GPT-5.4,默认人格下 goblin 出现频率变化只有 -3.2%;但在 Nerdy 人格下,这个数字暴涨了 3881.4%。更夸张的是,Nerdy 模式只占 ChatGPT 总对话量的 2.5%,却贡献了 66.7% 的 goblin 用量。
所以问题不在某个词本身,而在奖励信号把一种“看起来幽默”的表达方式推成了固定风格。
Codex 为什么更明显
Codex 场景放大了这个问题。因为代码任务经常涉及 bug、测试失败、环境差异和边界行为,模型很容易把这些问题拟人化。
当模型想用轻松方式解释“这个错误很奇怪”“这个测试不稳定”“这个行为像在捣乱”时,就会更容易调用这类词。久而久之,用户会感觉模型有固定口癖。
OpenAI 后来在 Codex 的系统提示中加入了抑制指令,明确要求模型避免这类表达。这个做法不是重新训练模型,而是在产品层面先把行为收住。
这件事说明什么
这个案例的重点,不在某个词本身,而在模型行为如何形成。
它至少说明了三点:
- 模型风格可能来自奖励信号,而不只是语料频率。
- 小的偏好在训练后期可能被放大成稳定人格特征。
- 产品里的系统提示可以缓解问题,但不等于从模型内部消除了倾向。
这也是大模型对齐里很麻烦的一类问题:用户喜欢“有趣”的回答,但过度追求有趣,可能让模型在严肃任务里显得轻浮、重复或自带口癖。
对使用者的启发
如果你在使用 AI 编程工具时发现模型有固定话术,不一定是提示词里写错了,也可能来自模型本身的训练偏好。
可以用几种方式缓解:
- 在系统提示或项目规则里写明语气要求。
- 要求模型避免拟人化、俚语化、过度调侃。
- 对技术任务指定“直接、简洁、工程化”的回答风格。
- 如果某个词反复出现,可以明确列入禁止表达。
这类约束不能改变模型内部权重,但能在实际产品使用中减少干扰。
小结
GPT-5.5 的 goblin 口癖不是一个孤立笑话。它展示了大模型训练中更深的问题:奖励信号会塑造风格,风格会迁移到产品场景,最后变成用户能感知到的人格特征。
对模型厂商来说,这类问题需要在训练、评测和产品提示三层同时处理。对普通用户来说,最实用的做法是把期望风格写清楚,让模型少一点表演,多一点稳定。
参考: