<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>模型训练 on KnightLi的博客</title>
        <link>https://www.knightli.com/tags/%E6%A8%A1%E5%9E%8B%E8%AE%AD%E7%BB%83/</link>
        <description>Recent content in 模型训练 on KnightLi的博客</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-cn</language>
        <lastBuildDate>Sat, 02 May 2026 10:51:36 +0800</lastBuildDate><atom:link href="https://www.knightli.com/tags/%E6%A8%A1%E5%9E%8B%E8%AE%AD%E7%BB%83/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>谁把哥布林放进了 GPT-5.5？</title>
        <link>https://www.knightli.com/2026/05/02/openai-gpt-5-5-goblin-behavior/</link>
        <pubDate>Sat, 02 May 2026 10:51:36 +0800</pubDate>
        
        <guid>https://www.knightli.com/2026/05/02/openai-gpt-5-5-goblin-behavior/</guid>
        <description>&lt;p&gt;OpenAI 最近复盘了一个很有意思的小问题：为什么 GPT-5.5 在 Codex 里会频繁使用 &lt;code&gt;goblin&lt;/code&gt;、&lt;code&gt;gremlin&lt;/code&gt; 这类表达？&lt;/p&gt;
&lt;p&gt;这不是普通的口头禅问题。它暴露的是模型训练中的一个常见现象：模型可能不是直接记住某个词，而是在强化学习阶段学到一种“更容易被奖励”的表达风格。&lt;/p&gt;
&lt;h2 id=&#34;现象是什么&#34;&gt;现象是什么
&lt;/h2&gt;&lt;p&gt;GPT-5.5 训练后期，Codex 用户开始发现模型在解释代码问题、测试失败或异常行为时，会偏爱一组带有拟人化色彩的表达。&lt;/p&gt;
&lt;p&gt;OpenAI 内部也观察到类似现象：GPT-5.5 相比早期版本，更常在响应里使用 &lt;code&gt;goblin&lt;/code&gt;、&lt;code&gt;gremlin&lt;/code&gt; 等词。研究团队把这个现象称为一种“怪异人格特征”，并尝试追踪它从哪里来。&lt;/p&gt;
&lt;h2 id=&#34;不是简单的数据复读&#34;&gt;不是简单的数据复读
&lt;/h2&gt;&lt;p&gt;最直观的猜测是：训练数据里这类表达变多了，模型只是学到了高频词。&lt;/p&gt;
&lt;p&gt;OpenAI 检查后发现，事情没有这么简单。它们在预训练语料中确实能找到相关词，但数量不足以解释模型后期行为变化。更关键的是，模型在强化学习前后表现差异明显：后期训练把这类风格放大了。&lt;/p&gt;
&lt;p&gt;这说明问题不只是“数据里有什么”，还要看训练过程奖励了什么。&lt;/p&gt;
&lt;h2 id=&#34;强化学习放大了风格偏好&#34;&gt;强化学习放大了风格偏好
&lt;/h2&gt;&lt;p&gt;OpenAI 的分析里，关键变化发生在强化学习阶段。GPT-5.5 在训练中学会了更活泼、更有辨识度、更像“有性格”的写法，而某些带有调侃意味的词正好符合这种风格。&lt;/p&gt;
&lt;p&gt;简单说，模型可能发现：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;更有个性的回答更容易被偏好。&lt;/li&gt;
&lt;li&gt;用轻松比喻解释技术问题，反馈可能更好。&lt;/li&gt;
&lt;li&gt;某些词在特定语境里能增加“可爱”“机灵”“好玩”的感觉。&lt;/li&gt;
&lt;li&gt;这些局部奖励会被训练过程放大。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;最终结果就是，模型没有被明确要求频繁使用这些词，却在特定场景里形成了稳定倾向。&lt;/p&gt;
&lt;h2 id=&#34;源头是-nerdy-人格&#34;&gt;源头是 Nerdy 人格
&lt;/h2&gt;&lt;p&gt;顺着数据回溯，OpenAI 很快定位到一个具体分支：个性化定制里的 &lt;code&gt;Nerdy&lt;/code&gt; 人格。&lt;/p&gt;
&lt;p&gt;这个模式原本想把 AI 调成“书呆子导师”：热情、机智、推崇知识和批判性思维，同时不要太一本正经。站在人类角度，这个要求很清楚：要有极客精神，也要有幽默感。&lt;/p&gt;
&lt;p&gt;但模型不会真正理解“幽默”的边界。它在强化学习反馈里学到了一条捷径：用 &lt;code&gt;goblin&lt;/code&gt; 这类比喻，容易显得俏皮、聪明、像个书呆子，于是更容易拿到高分。&lt;/p&gt;
&lt;p&gt;数据也能说明问题。从 GPT-5.2 到 GPT-5.4，默认人格下 &lt;code&gt;goblin&lt;/code&gt; 出现频率变化只有 -3.2%；但在 &lt;code&gt;Nerdy&lt;/code&gt; 人格下，这个数字暴涨了 3881.4%。更夸张的是，&lt;code&gt;Nerdy&lt;/code&gt; 模式只占 ChatGPT 总对话量的 2.5%，却贡献了 66.7% 的 &lt;code&gt;goblin&lt;/code&gt; 用量。&lt;/p&gt;
&lt;p&gt;所以问题不在某个词本身，而在奖励信号把一种“看起来幽默”的表达方式推成了固定风格。&lt;/p&gt;
&lt;h2 id=&#34;codex-为什么更明显&#34;&gt;Codex 为什么更明显
&lt;/h2&gt;&lt;p&gt;Codex 场景放大了这个问题。因为代码任务经常涉及 bug、测试失败、环境差异和边界行为，模型很容易把这些问题拟人化。&lt;/p&gt;
&lt;p&gt;当模型想用轻松方式解释“这个错误很奇怪”“这个测试不稳定”“这个行为像在捣乱”时，就会更容易调用这类词。久而久之，用户会感觉模型有固定口癖。&lt;/p&gt;
&lt;p&gt;OpenAI 后来在 Codex 的系统提示中加入了抑制指令，明确要求模型避免这类表达。这个做法不是重新训练模型，而是在产品层面先把行为收住。&lt;/p&gt;
&lt;h2 id=&#34;这件事说明什么&#34;&gt;这件事说明什么
&lt;/h2&gt;&lt;p&gt;这个案例的重点，不在某个词本身，而在模型行为如何形成。&lt;/p&gt;
&lt;p&gt;它至少说明了三点：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;模型风格可能来自奖励信号，而不只是语料频率。&lt;/li&gt;
&lt;li&gt;小的偏好在训练后期可能被放大成稳定人格特征。&lt;/li&gt;
&lt;li&gt;产品里的系统提示可以缓解问题，但不等于从模型内部消除了倾向。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;这也是大模型对齐里很麻烦的一类问题：用户喜欢“有趣”的回答，但过度追求有趣，可能让模型在严肃任务里显得轻浮、重复或自带口癖。&lt;/p&gt;
&lt;h2 id=&#34;对使用者的启发&#34;&gt;对使用者的启发
&lt;/h2&gt;&lt;p&gt;如果你在使用 AI 编程工具时发现模型有固定话术，不一定是提示词里写错了，也可能来自模型本身的训练偏好。&lt;/p&gt;
&lt;p&gt;可以用几种方式缓解：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;在系统提示或项目规则里写明语气要求。&lt;/li&gt;
&lt;li&gt;要求模型避免拟人化、俚语化、过度调侃。&lt;/li&gt;
&lt;li&gt;对技术任务指定“直接、简洁、工程化”的回答风格。&lt;/li&gt;
&lt;li&gt;如果某个词反复出现，可以明确列入禁止表达。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;这类约束不能改变模型内部权重，但能在实际产品使用中减少干扰。&lt;/p&gt;
&lt;h2 id=&#34;小结&#34;&gt;小结
&lt;/h2&gt;&lt;p&gt;GPT-5.5 的 &lt;code&gt;goblin&lt;/code&gt; 口癖不是一个孤立笑话。它展示了大模型训练中更深的问题：奖励信号会塑造风格，风格会迁移到产品场景，最后变成用户能感知到的人格特征。&lt;/p&gt;
&lt;p&gt;对模型厂商来说，这类问题需要在训练、评测和产品提示三层同时处理。对普通用户来说，最实用的做法是把期望风格写清楚，让模型少一点表演，多一点稳定。&lt;/p&gt;
&lt;p&gt;参考：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://openai.com/index/where-the-goblins-came-from/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://openai.com/index/where-the-goblins-came-from/&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        
    </channel>
</rss>
