OpenAI 最近復盤了一個很有意思的小問題:為什麼 GPT-5.5 在 Codex 裡會頻繁使用 goblin、gremlin 這類表達?
這不是普通的口頭禪問題。它暴露的是模型訓練中的一個常見現象:模型可能不是直接記住某個詞,而是在強化學習階段學到一種「更容易被獎勵」的表達風格。
現象是什麼
GPT-5.5 訓練後期,Codex 使用者開始發現模型在解釋程式碼問題、測試失敗或異常行為時,會偏愛一組帶有擬人化色彩的表達。
OpenAI 內部也觀察到類似現象:GPT-5.5 相比早期版本,更常在回應裡使用 goblin、gremlin 等詞。研究團隊把這個現象稱為一種「怪異人格特徵」,並嘗試追蹤它從哪裡來。
不是簡單的資料複讀
最直觀的猜測是:訓練資料裡這類表達變多了,模型只是學到了高頻詞。
OpenAI 檢查後發現,事情沒有這麼簡單。它們在預訓練語料中確實能找到相關詞,但數量不足以解釋模型後期行為變化。更關鍵的是,模型在強化學習前後表現差異明顯:後期訓練把這類風格放大了。
這說明問題不只是「資料裡有什麼」,還要看訓練過程獎勵了什麼。
強化學習放大了風格偏好
OpenAI 的分析裡,關鍵變化發生在強化學習階段。GPT-5.5 在訓練中學會了更活潑、更有辨識度、更像「有性格」的寫法,而某些帶有調侃意味的詞正好符合這種風格。
簡單說,模型可能發現:
- 更有個性的回答更容易被偏好。
- 用輕鬆比喻解釋技術問題,回饋可能更好。
- 某些詞在特定語境裡能增加「可愛」「機靈」「好玩」的感覺。
- 這些局部獎勵會被訓練過程放大。
最終結果就是,模型沒有被明確要求頻繁使用這些詞,卻在特定場景裡形成了穩定傾向。
源頭是 Nerdy 人格
順著資料回溯,OpenAI 很快定位到一個具體分支:個性化定製裡的 Nerdy 人格。
這個模式原本想把 AI 調成「書呆子導師」:熱情、機智、推崇知識和批判性思維,同時不要太一本正經。站在人類角度,這個要求很清楚:要有極客精神,也要有幽默感。
但模型不會真正理解「幽默」的邊界。它在強化學習回饋裡學到了一條捷徑:用 goblin 這類比喻,容易顯得俏皮、聰明、像個書呆子,於是更容易拿到高分。
資料也能說明問題。從 GPT-5.2 到 GPT-5.4,預設人格下 goblin 出現頻率變化只有 -3.2%;但在 Nerdy 人格下,這個數字暴漲了 3881.4%。更誇張的是,Nerdy 模式只佔 ChatGPT 總對話量的 2.5%,卻貢獻了 66.7% 的 goblin 用量。
所以問題不在某個詞本身,而在獎勵訊號把一種「看起來幽默」的表達方式推成了固定風格。
Codex 為什麼更明顯
Codex 場景放大了這個問題。因為程式碼任務經常涉及 bug、測試失敗、環境差異和邊界行為,模型很容易把這些問題擬人化。
當模型想用輕鬆方式解釋「這個錯誤很奇怪」「這個測試不穩定」「這個行為像在搗亂」時,就會更容易調用這類詞。久而久之,使用者會感覺模型有固定口癖。
OpenAI 後來在 Codex 的系統提示中加入了抑制指令,明確要求模型避免這類表達。這個做法不是重新訓練模型,而是在產品層面先把行為收住。
這件事說明什麼
這個案例的重點,不在某個詞本身,而在模型行為如何形成。
它至少說明瞭三點:
- 模型風格可能來自獎勵訊號,而不只是語料頻率。
- 小的偏好在訓練後期可能被放大成穩定人格特徵。
- 產品裡的系統提示可以緩解問題,但不等於從模型內部消除了傾向。
這也是大模型對齊裡很麻煩的一類問題:使用者喜歡「有趣」的回答,但過度追求有趣,可能讓模型在嚴肅任務裡顯得輕浮、重複或自帶口癖。
對使用者的啟發
如果你在使用 AI 程式設計工具時發現模型有固定話術,不一定是提示詞裡寫錯了,也可能來自模型本身的訓練偏好。
可以用幾種方式緩解:
- 在系統提示或專案規則裡寫明語氣要求。
- 要求模型避免擬人化、俚語化、過度調侃。
- 對技術任務指定「直接、簡潔、工程化」的回答風格。
- 如果某個詞反覆出現,可以明確列入禁止表達。
這類約束不能改變模型內部權重,但能在實際產品使用中減少幹擾。
小結
GPT-5.5 的 goblin 口癖不是一個孤立笑話。它展示了大模型訓練中更深的問題:獎勵訊號會塑造風格,風格會遷移到產品場景,最後變成使用者能感知到的人格特徵。
對模型廠商來說,這類問題需要在訓練、評測和產品提示三層同時處理。對普通使用者來說,最實用的做法是把期望風格寫清楚,讓模型少一點表演,多一點穩定。
參考: