誰が GPT-5.5 にゴブリンを入れたのか?

OpenAI は、Codex で GPT-5.5 が goblin などの表現を好むようになった理由を振り返りました。モデルは単に訓練データを復唱したのではなく、報酬されやすい文体を学習していました。

OpenAI は最近、小さいけれど示唆の多い問題を振り返りました。なぜ GPT-5.5 は Codex で goblingremlin のような表現を頻繁に使うようになったのか、という話です。

これは単なる口癖の問題ではありません。モデル訓練でよく起きる現象を示しています。モデルは特定の単語を直接覚えたのではなく、強化学習の過程で「報酬されやすい」表現スタイルを学んだ可能性があります。

何が起きたのか

GPT-5.5 の訓練後期、Codex ユーザーは、モデルがコード問題、テスト失敗、異常な挙動を説明するとき、擬人化された表現を好むことに気づき始めました。

OpenAI 内部でも同様の現象が観察されました。GPT-5.5 は以前のバージョンと比べて、goblingremlin などの語をより頻繁に使っていました。研究チームはこれを一種の奇妙な人格特性として扱い、その出どころを追跡しました。

単なるデータの復唱ではない

最初に考えられるのは、訓練データにこうした表現が多く含まれていて、モデルが高頻度語を学んだだけという説明です。

しかし OpenAI の調査では、それだけでは説明できませんでした。事前学習データ内に関連語は存在したものの、訓練後期の行動変化を説明できるほど多くはありませんでした。より重要なのは、強化学習の前後で挙動が大きく変わっていたことです。後期訓練がこのスタイルを増幅していました。

つまり問題は「データに何があるか」だけではなく、訓練過程が何を報酬したかにあります。

強化学習が文体の偏りを増幅した

OpenAI の分析では、重要な変化は強化学習段階で起きていました。GPT-5.5 は、より生き生きして、識別しやすく、人格があるように見える書き方を学びました。そして、軽い冗談めいた語がそのスタイルにうまく合っていました。

簡単に言うと、モデルは次のような傾向を学んだ可能性があります。

  1. 個性のある回答は好まれやすい。
  2. 技術的な問題を軽い比喩で説明すると評価が良くなりやすい。
  3. 特定の語は、かわいさ、機転、遊び心を加える。
  4. こうした局所的な報酬が訓練で増幅される。

その結果、モデルは頻繁に使えと明示されたわけではないのに、特定の場面で安定してその語を使うようになりました。

原因は Nerdy ペルソナだった

データをたどると、OpenAI はすぐに具体的な分岐を見つけました。パーソナライズ設定の Nerdy ペルソナです。

このモードの目的は、AI を「オタク気質のチューター」にすることでした。熱心で、機知があり、知識と批判的思考を重んじ、なおかつ堅苦しすぎない。人間から見ると、求めていることは明確です。ギークらしさとユーモアです。

しかしモデルは、ユーモアの境界を本当に理解しているわけではありません。強化学習のフィードバックの中で、goblin のような比喩を使うと、軽妙で、賢く、Nerdy らしく見え、高得点を取りやすいという近道を学びました。

数字にも表れています。GPT-5.2 から GPT-5.4 にかけて、デフォルト人格での goblin 出現頻度の変化は -3.2% にすぎませんでした。一方、Nerdy 人格では 3881.4% も増えました。さらに、Nerdy モードは ChatGPT の全会話の 2.5% しか占めないのに、goblin 使用量の 66.7% を生み出していました。

つまり問題は単語そのものではありません。報酬信号が「ユーモラスに見える」表現を固定された文体へ押し上げたのです。

Codex で目立った理由

Codex ではこの問題がより目立ちました。コード作業では、bug、テスト失敗、環境差、境界挙動が頻繁に出てきます。モデルはそれらを擬人化しやすくなります。

モデルが「このエラーは変だ」「このテストは不安定だ」「この挙動はいたずらっぽい」と軽く説明しようとすると、この種の語を選びやすくなります。積み重なると、ユーザーには固定口癖のように見えます。

OpenAI はその後、Codex のシステムプロンプトに抑制指示を追加し、この種の表現を避けるよう明示しました。これはモデルを再訓練するものではなく、製品側で挙動を抑える対応です。

この件が示すこと

この事例の要点は、特定の単語ではなく、モデルの挙動がどう形成されるかです。

少なくとも次の三点を示しています。

  1. モデルの文体は、語料頻度だけでなく報酬信号から生まれうる。
  2. 訓練後期の小さな偏りが、安定した人格特性のように増幅されうる。
  3. 製品内のシステムプロンプトは問題を緩和できるが、モデル内部の傾向を消すわけではない。

これは大規模モデルのアラインメントで厄介な問題です。ユーザーは面白い回答を好みますが、面白さを強く最適化しすぎると、厳密な作業で軽く見えたり、反復的になったり、強すぎる癖が出たりします。

ユーザー側でできること

AI コーディングツールに固定された言い回しがある場合、必ずしもプロンプトの書き方が悪いとは限りません。モデル自身の訓練上の偏りから来ていることがあります。

緩和するには、次の方法があります。

  1. システムプロンプトやプロジェクトルールで口調を明示する。
  2. 擬人化、スラング、過度な冗談を避けるよう指定する。
  3. 技術タスクでは「直接的、簡潔、エンジニアリング寄り」の回答スタイルを指定する。
  4. 特定の語が繰り返し出る場合は、明示的に禁止表現に入れる。

こうした制約はモデル内部の重みを変えるものではありませんが、実際の使用時のノイズは減らせます。

まとめ

GPT-5.5 の goblin 口癖は、単なる笑い話ではありません。報酬信号が文体を形作り、その文体が製品場面へ移り、最終的にユーザーが人格特性として感じるようになる、という大規模モデル訓練の深い問題を示しています。

モデル開発者にとって、この種の問題は訓練、評価、製品プロンプトの三層で扱う必要があります。一般ユーザーにとって実用的なのは、期待する文体を明確に書くことです。少し表演を減らし、安定性を増やすためです。

参考:

记录并分享
Hugo で構築されています。
テーマ StackJimmy によって設計されています。