誰把哥布林放進了 GPT-5.5？

Sat, 02 May 2026 11:02:16 +0800

OpenAI 最近復盤了一個很有意思的小問題：為什麼 GPT-5.5 在 Codex 裡會頻繁使用 goblin、gremlin 這類表達？

這不是普通的口頭禪問題。它暴露的是模型訓練中的一個常見現象：模型可能不是直接記住某個詞，而是在強化學習階段學到一種「更容易被獎勵」的表達風格。

現象是什麼

GPT-5.5 訓練後期，Codex 使用者開始發現模型在解釋程式碼問題、測試失敗或異常行為時，會偏愛一組帶有擬人化色彩的表達。

OpenAI 內部也觀察到類似現象：GPT-5.5 相比早期版本，更常在回應裡使用 goblin、gremlin 等詞。研究團隊把這個現象稱為一種「怪異人格特徵」，並嘗試追蹤它從哪裡來。

不是簡單的資料複讀

最直觀的猜測是：訓練資料裡這類表達變多了，模型只是學到了高頻詞。

OpenAI 檢查後發現，事情沒有這麼簡單。它們在預訓練語料中確實能找到相關詞，但數量不足以解釋模型後期行為變化。更關鍵的是，模型在強化學習前後表現差異明顯：後期訓練把這類風格放大了。

這說明問題不只是「資料裡有什麼」，還要看訓練過程獎勵了什麼。

強化學習放大了風格偏好

OpenAI 的分析裡，關鍵變化發生在強化學習階段。GPT-5.5 在訓練中學會了更活潑、更有辨識度、更像「有性格」的寫法，而某些帶有調侃意味的詞正好符合這種風格。

簡單說，模型可能發現：

更有個性的回答更容易被偏好。
用輕鬆比喻解釋技術問題，回饋可能更好。
某些詞在特定語境裡能增加「可愛」「機靈」「好玩」的感覺。
這些局部獎勵會被訓練過程放大。

最終結果就是，模型沒有被明確要求頻繁使用這些詞，卻在特定場景裡形成了穩定傾向。

源頭是 Nerdy 人格

順著資料回溯，OpenAI 很快定位到一個具體分支：個性化定製裡的 Nerdy 人格。

這個模式原本想把 AI 調成「書呆子導師」：熱情、機智、推崇知識和批判性思維，同時不要太一本正經。站在人類角度，這個要求很清楚：要有極客精神，也要有幽默感。

但模型不會真正理解「幽默」的邊界。它在強化學習回饋裡學到了一條捷徑：用 goblin 這類比喻，容易顯得俏皮、聰明、像個書呆子，於是更容易拿到高分。

資料也能說明問題。從 GPT-5.2 到 GPT-5.4，預設人格下 goblin 出現頻率變化只有 -3.2%；但在 Nerdy 人格下，這個數字暴漲了 3881.4%。更誇張的是，Nerdy 模式只佔 ChatGPT 總對話量的 2.5%，卻貢獻了 66.7% 的 goblin 用量。

所以問題不在某個詞本身，而在獎勵訊號把一種「看起來幽默」的表達方式推成了固定風格。

Codex 為什麼更明顯

Codex 場景放大了這個問題。因為程式碼任務經常涉及 bug、測試失敗、環境差異和邊界行為，模型很容易把這些問題擬人化。

當模型想用輕鬆方式解釋「這個錯誤很奇怪」「這個測試不穩定」「這個行為像在搗亂」時，就會更容易調用這類詞。久而久之，使用者會感覺模型有固定口癖。

OpenAI 後來在 Codex 的系統提示中加入了抑制指令，明確要求模型避免這類表達。這個做法不是重新訓練模型，而是在產品層面先把行為收住。

這件事說明什麼

這個案例的重點，不在某個詞本身，而在模型行為如何形成。

它至少說明瞭三點：

模型風格可能來自獎勵訊號，而不只是語料頻率。
小的偏好在訓練後期可能被放大成穩定人格特徵。
產品裡的系統提示可以緩解問題，但不等於從模型內部消除了傾向。

這也是大模型對齊裡很麻煩的一類問題：使用者喜歡「有趣」的回答，但過度追求有趣，可能讓模型在嚴肅任務裡顯得輕浮、重複或自帶口癖。

對使用者的啟發

如果你在使用 AI 程式設計工具時發現模型有固定話術，不一定是提示詞裡寫錯了，也可能來自模型本身的訓練偏好。

可以用幾種方式緩解：

在系統提示或專案規則裡寫明語氣要求。
要求模型避免擬人化、俚語化、過度調侃。
對技術任務指定「直接、簡潔、工程化」的回答風格。
如果某個詞反覆出現，可以明確列入禁止表達。

這類約束不能改變模型內部權重，但能在實際產品使用中減少幹擾。

小結

GPT-5.5 的 goblin 口癖不是一個孤立笑話。它展示了大模型訓練中更深的問題：獎勵訊號會塑造風格，風格會遷移到產品場景，最後變成使用者能感知到的人格特徵。

對模型廠商來說，這類問題需要在訓練、評測和產品提示三層同時處理。對普通使用者來說，最實用的做法是把期望風格寫清楚，讓模型少一點表演，多一點穩定。

參考：

https://openai.com/index/where-the-goblins-came-from/

模型訓練 on KnightLi的博客