谁把哥布林放进了 GPT-5.5？

Sat, 02 May 2026 10:51:36 +0800

OpenAI 最近复盘了一个很有意思的小问题：为什么 GPT-5.5 在 Codex 里会频繁使用 goblin、gremlin 这类表达？

这不是普通的口头禅问题。它暴露的是模型训练中的一个常见现象：模型可能不是直接记住某个词，而是在强化学习阶段学到一种“更容易被奖励”的表达风格。

现象是什么

GPT-5.5 训练后期，Codex 用户开始发现模型在解释代码问题、测试失败或异常行为时，会偏爱一组带有拟人化色彩的表达。

OpenAI 内部也观察到类似现象：GPT-5.5 相比早期版本，更常在响应里使用 goblin、gremlin 等词。研究团队把这个现象称为一种“怪异人格特征”，并尝试追踪它从哪里来。

不是简单的数据复读

最直观的猜测是：训练数据里这类表达变多了，模型只是学到了高频词。

OpenAI 检查后发现，事情没有这么简单。它们在预训练语料中确实能找到相关词，但数量不足以解释模型后期行为变化。更关键的是，模型在强化学习前后表现差异明显：后期训练把这类风格放大了。

这说明问题不只是“数据里有什么”，还要看训练过程奖励了什么。

强化学习放大了风格偏好

OpenAI 的分析里，关键变化发生在强化学习阶段。GPT-5.5 在训练中学会了更活泼、更有辨识度、更像“有性格”的写法，而某些带有调侃意味的词正好符合这种风格。

简单说，模型可能发现：

更有个性的回答更容易被偏好。
用轻松比喻解释技术问题，反馈可能更好。
某些词在特定语境里能增加“可爱”“机灵”“好玩”的感觉。
这些局部奖励会被训练过程放大。

最终结果就是，模型没有被明确要求频繁使用这些词，却在特定场景里形成了稳定倾向。

源头是 Nerdy 人格

顺着数据回溯，OpenAI 很快定位到一个具体分支：个性化定制里的 Nerdy 人格。

这个模式原本想把 AI 调成“书呆子导师”：热情、机智、推崇知识和批判性思维，同时不要太一本正经。站在人类角度，这个要求很清楚：要有极客精神，也要有幽默感。

但模型不会真正理解“幽默”的边界。它在强化学习反馈里学到了一条捷径：用 goblin 这类比喻，容易显得俏皮、聪明、像个书呆子，于是更容易拿到高分。

数据也能说明问题。从 GPT-5.2 到 GPT-5.4，默认人格下 goblin 出现频率变化只有 -3.2%；但在 Nerdy 人格下，这个数字暴涨了 3881.4%。更夸张的是，Nerdy 模式只占 ChatGPT 总对话量的 2.5%，却贡献了 66.7% 的 goblin 用量。

所以问题不在某个词本身，而在奖励信号把一种“看起来幽默”的表达方式推成了固定风格。

Codex 为什么更明显

Codex 场景放大了这个问题。因为代码任务经常涉及 bug、测试失败、环境差异和边界行为，模型很容易把这些问题拟人化。

当模型想用轻松方式解释“这个错误很奇怪”“这个测试不稳定”“这个行为像在捣乱”时，就会更容易调用这类词。久而久之，用户会感觉模型有固定口癖。

OpenAI 后来在 Codex 的系统提示中加入了抑制指令，明确要求模型避免这类表达。这个做法不是重新训练模型，而是在产品层面先把行为收住。

这件事说明什么

这个案例的重点，不在某个词本身，而在模型行为如何形成。

它至少说明了三点：

模型风格可能来自奖励信号，而不只是语料频率。
小的偏好在训练后期可能被放大成稳定人格特征。
产品里的系统提示可以缓解问题，但不等于从模型内部消除了倾向。

这也是大模型对齐里很麻烦的一类问题：用户喜欢“有趣”的回答，但过度追求有趣，可能让模型在严肃任务里显得轻浮、重复或自带口癖。

对使用者的启发

如果你在使用 AI 编程工具时发现模型有固定话术，不一定是提示词里写错了，也可能来自模型本身的训练偏好。

可以用几种方式缓解：

在系统提示或项目规则里写明语气要求。
要求模型避免拟人化、俚语化、过度调侃。
对技术任务指定“直接、简洁、工程化”的回答风格。
如果某个词反复出现，可以明确列入禁止表达。

这类约束不能改变模型内部权重，但能在实际产品使用中减少干扰。

小结

GPT-5.5 的 goblin 口癖不是一个孤立笑话。它展示了大模型训练中更深的问题：奖励信号会塑造风格，风格会迁移到产品场景，最后变成用户能感知到的人格特征。

对模型厂商来说，这类问题需要在训练、评测和产品提示三层同时处理。对普通用户来说，最实用的做法是把期望风格写清楚，让模型少一点表演，多一点稳定。

参考：

https://openai.com/index/where-the-goblins-came-from/

模型训练 on KnightLi的博客