<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>模型訓練 on KnightLi的博客</title>
        <link>https://www.knightli.com/zh-tw/tags/%E6%A8%A1%E5%9E%8B%E8%A8%93%E7%B7%B4/</link>
        <description>Recent content in 模型訓練 on KnightLi的博客</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-tw</language>
        <lastBuildDate>Sat, 02 May 2026 11:02:16 +0800</lastBuildDate><atom:link href="https://www.knightli.com/zh-tw/tags/%E6%A8%A1%E5%9E%8B%E8%A8%93%E7%B7%B4/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>誰把哥布林放進了 GPT-5.5？</title>
        <link>https://www.knightli.com/zh-tw/2026/05/02/openai-gpt-5-5-goblin-behavior/</link>
        <pubDate>Sat, 02 May 2026 11:02:16 +0800</pubDate>
        
        <guid>https://www.knightli.com/zh-tw/2026/05/02/openai-gpt-5-5-goblin-behavior/</guid>
        <description>&lt;p&gt;OpenAI 最近復盤了一個很有意思的小問題：為什麼 GPT-5.5 在 Codex 裡會頻繁使用 &lt;code&gt;goblin&lt;/code&gt;、&lt;code&gt;gremlin&lt;/code&gt; 這類表達？&lt;/p&gt;
&lt;p&gt;這不是普通的口頭禪問題。它暴露的是模型訓練中的一個常見現象：模型可能不是直接記住某個詞，而是在強化學習階段學到一種「更容易被獎勵」的表達風格。&lt;/p&gt;
&lt;h2 id=&#34;現象是什麼&#34;&gt;現象是什麼
&lt;/h2&gt;&lt;p&gt;GPT-5.5 訓練後期，Codex 使用者開始發現模型在解釋程式碼問題、測試失敗或異常行為時，會偏愛一組帶有擬人化色彩的表達。&lt;/p&gt;
&lt;p&gt;OpenAI 內部也觀察到類似現象：GPT-5.5 相比早期版本，更常在回應裡使用 &lt;code&gt;goblin&lt;/code&gt;、&lt;code&gt;gremlin&lt;/code&gt; 等詞。研究團隊把這個現象稱為一種「怪異人格特徵」，並嘗試追蹤它從哪裡來。&lt;/p&gt;
&lt;h2 id=&#34;不是簡單的資料複讀&#34;&gt;不是簡單的資料複讀
&lt;/h2&gt;&lt;p&gt;最直觀的猜測是：訓練資料裡這類表達變多了，模型只是學到了高頻詞。&lt;/p&gt;
&lt;p&gt;OpenAI 檢查後發現，事情沒有這麼簡單。它們在預訓練語料中確實能找到相關詞，但數量不足以解釋模型後期行為變化。更關鍵的是，模型在強化學習前後表現差異明顯：後期訓練把這類風格放大了。&lt;/p&gt;
&lt;p&gt;這說明問題不只是「資料裡有什麼」，還要看訓練過程獎勵了什麼。&lt;/p&gt;
&lt;h2 id=&#34;強化學習放大了風格偏好&#34;&gt;強化學習放大了風格偏好
&lt;/h2&gt;&lt;p&gt;OpenAI 的分析裡，關鍵變化發生在強化學習階段。GPT-5.5 在訓練中學會了更活潑、更有辨識度、更像「有性格」的寫法，而某些帶有調侃意味的詞正好符合這種風格。&lt;/p&gt;
&lt;p&gt;簡單說，模型可能發現：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;更有個性的回答更容易被偏好。&lt;/li&gt;
&lt;li&gt;用輕鬆比喻解釋技術問題，回饋可能更好。&lt;/li&gt;
&lt;li&gt;某些詞在特定語境裡能增加「可愛」「機靈」「好玩」的感覺。&lt;/li&gt;
&lt;li&gt;這些局部獎勵會被訓練過程放大。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;最終結果就是，模型沒有被明確要求頻繁使用這些詞，卻在特定場景裡形成了穩定傾向。&lt;/p&gt;
&lt;h2 id=&#34;源頭是-nerdy-人格&#34;&gt;源頭是 Nerdy 人格
&lt;/h2&gt;&lt;p&gt;順著資料回溯，OpenAI 很快定位到一個具體分支：個性化定製裡的 &lt;code&gt;Nerdy&lt;/code&gt; 人格。&lt;/p&gt;
&lt;p&gt;這個模式原本想把 AI 調成「書呆子導師」：熱情、機智、推崇知識和批判性思維，同時不要太一本正經。站在人類角度，這個要求很清楚：要有極客精神，也要有幽默感。&lt;/p&gt;
&lt;p&gt;但模型不會真正理解「幽默」的邊界。它在強化學習回饋裡學到了一條捷徑：用 &lt;code&gt;goblin&lt;/code&gt; 這類比喻，容易顯得俏皮、聰明、像個書呆子，於是更容易拿到高分。&lt;/p&gt;
&lt;p&gt;資料也能說明問題。從 GPT-5.2 到 GPT-5.4，預設人格下 &lt;code&gt;goblin&lt;/code&gt; 出現頻率變化只有 -3.2%；但在 &lt;code&gt;Nerdy&lt;/code&gt; 人格下，這個數字暴漲了 3881.4%。更誇張的是，&lt;code&gt;Nerdy&lt;/code&gt; 模式只佔 ChatGPT 總對話量的 2.5%，卻貢獻了 66.7% 的 &lt;code&gt;goblin&lt;/code&gt; 用量。&lt;/p&gt;
&lt;p&gt;所以問題不在某個詞本身，而在獎勵訊號把一種「看起來幽默」的表達方式推成了固定風格。&lt;/p&gt;
&lt;h2 id=&#34;codex-為什麼更明顯&#34;&gt;Codex 為什麼更明顯
&lt;/h2&gt;&lt;p&gt;Codex 場景放大了這個問題。因為程式碼任務經常涉及 bug、測試失敗、環境差異和邊界行為，模型很容易把這些問題擬人化。&lt;/p&gt;
&lt;p&gt;當模型想用輕鬆方式解釋「這個錯誤很奇怪」「這個測試不穩定」「這個行為像在搗亂」時，就會更容易調用這類詞。久而久之，使用者會感覺模型有固定口癖。&lt;/p&gt;
&lt;p&gt;OpenAI 後來在 Codex 的系統提示中加入了抑制指令，明確要求模型避免這類表達。這個做法不是重新訓練模型，而是在產品層面先把行為收住。&lt;/p&gt;
&lt;h2 id=&#34;這件事說明什麼&#34;&gt;這件事說明什麼
&lt;/h2&gt;&lt;p&gt;這個案例的重點，不在某個詞本身，而在模型行為如何形成。&lt;/p&gt;
&lt;p&gt;它至少說明瞭三點：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;模型風格可能來自獎勵訊號，而不只是語料頻率。&lt;/li&gt;
&lt;li&gt;小的偏好在訓練後期可能被放大成穩定人格特徵。&lt;/li&gt;
&lt;li&gt;產品裡的系統提示可以緩解問題，但不等於從模型內部消除了傾向。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;這也是大模型對齊裡很麻煩的一類問題：使用者喜歡「有趣」的回答，但過度追求有趣，可能讓模型在嚴肅任務裡顯得輕浮、重複或自帶口癖。&lt;/p&gt;
&lt;h2 id=&#34;對使用者的啟發&#34;&gt;對使用者的啟發
&lt;/h2&gt;&lt;p&gt;如果你在使用 AI 程式設計工具時發現模型有固定話術，不一定是提示詞裡寫錯了，也可能來自模型本身的訓練偏好。&lt;/p&gt;
&lt;p&gt;可以用幾種方式緩解：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;在系統提示或專案規則裡寫明語氣要求。&lt;/li&gt;
&lt;li&gt;要求模型避免擬人化、俚語化、過度調侃。&lt;/li&gt;
&lt;li&gt;對技術任務指定「直接、簡潔、工程化」的回答風格。&lt;/li&gt;
&lt;li&gt;如果某個詞反覆出現，可以明確列入禁止表達。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;這類約束不能改變模型內部權重，但能在實際產品使用中減少幹擾。&lt;/p&gt;
&lt;h2 id=&#34;小結&#34;&gt;小結
&lt;/h2&gt;&lt;p&gt;GPT-5.5 的 &lt;code&gt;goblin&lt;/code&gt; 口癖不是一個孤立笑話。它展示了大模型訓練中更深的問題：獎勵訊號會塑造風格，風格會遷移到產品場景，最後變成使用者能感知到的人格特徵。&lt;/p&gt;
&lt;p&gt;對模型廠商來說，這類問題需要在訓練、評測和產品提示三層同時處理。對普通使用者來說，最實用的做法是把期望風格寫清楚，讓模型少一點表演，多一點穩定。&lt;/p&gt;
&lt;p&gt;參考：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://openai.com/index/where-the-goblins-came-from/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://openai.com/index/where-the-goblins-came-from/&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        
    </channel>
</rss>
