OpenAI は最近、小さいけれど示唆の多い問題を振り返りました。なぜ GPT-5.5 は Codex で goblin や gremlin のような表現を頻繁に使うようになったのか、という話です。
これは単なる口癖の問題ではありません。モデル訓練でよく起きる現象を示しています。モデルは特定の単語を直接覚えたのではなく、強化学習の過程で「報酬されやすい」表現スタイルを学んだ可能性があります。
何が起きたのか
GPT-5.5 の訓練後期、Codex ユーザーは、モデルがコード問題、テスト失敗、異常な挙動を説明するとき、擬人化された表現を好むことに気づき始めました。
OpenAI 内部でも同様の現象が観察されました。GPT-5.5 は以前のバージョンと比べて、goblin や gremlin などの語をより頻繁に使っていました。研究チームはこれを一種の奇妙な人格特性として扱い、その出どころを追跡しました。
単なるデータの復唱ではない
最初に考えられるのは、訓練データにこうした表現が多く含まれていて、モデルが高頻度語を学んだだけという説明です。
しかし OpenAI の調査では、それだけでは説明できませんでした。事前学習データ内に関連語は存在したものの、訓練後期の行動変化を説明できるほど多くはありませんでした。より重要なのは、強化学習の前後で挙動が大きく変わっていたことです。後期訓練がこのスタイルを増幅していました。
つまり問題は「データに何があるか」だけではなく、訓練過程が何を報酬したかにあります。
強化学習が文体の偏りを増幅した
OpenAI の分析では、重要な変化は強化学習段階で起きていました。GPT-5.5 は、より生き生きして、識別しやすく、人格があるように見える書き方を学びました。そして、軽い冗談めいた語がそのスタイルにうまく合っていました。
簡単に言うと、モデルは次のような傾向を学んだ可能性があります。
- 個性のある回答は好まれやすい。
- 技術的な問題を軽い比喩で説明すると評価が良くなりやすい。
- 特定の語は、かわいさ、機転、遊び心を加える。
- こうした局所的な報酬が訓練で増幅される。
その結果、モデルは頻繁に使えと明示されたわけではないのに、特定の場面で安定してその語を使うようになりました。
原因は Nerdy ペルソナだった
データをたどると、OpenAI はすぐに具体的な分岐を見つけました。パーソナライズ設定の Nerdy ペルソナです。
このモードの目的は、AI を「オタク気質のチューター」にすることでした。熱心で、機知があり、知識と批判的思考を重んじ、なおかつ堅苦しすぎない。人間から見ると、求めていることは明確です。ギークらしさとユーモアです。
しかしモデルは、ユーモアの境界を本当に理解しているわけではありません。強化学習のフィードバックの中で、goblin のような比喩を使うと、軽妙で、賢く、Nerdy らしく見え、高得点を取りやすいという近道を学びました。
数字にも表れています。GPT-5.2 から GPT-5.4 にかけて、デフォルト人格での goblin 出現頻度の変化は -3.2% にすぎませんでした。一方、Nerdy 人格では 3881.4% も増えました。さらに、Nerdy モードは ChatGPT の全会話の 2.5% しか占めないのに、goblin 使用量の 66.7% を生み出していました。
つまり問題は単語そのものではありません。報酬信号が「ユーモラスに見える」表現を固定された文体へ押し上げたのです。
Codex で目立った理由
Codex ではこの問題がより目立ちました。コード作業では、bug、テスト失敗、環境差、境界挙動が頻繁に出てきます。モデルはそれらを擬人化しやすくなります。
モデルが「このエラーは変だ」「このテストは不安定だ」「この挙動はいたずらっぽい」と軽く説明しようとすると、この種の語を選びやすくなります。積み重なると、ユーザーには固定口癖のように見えます。
OpenAI はその後、Codex のシステムプロンプトに抑制指示を追加し、この種の表現を避けるよう明示しました。これはモデルを再訓練するものではなく、製品側で挙動を抑える対応です。
この件が示すこと
この事例の要点は、特定の単語ではなく、モデルの挙動がどう形成されるかです。
少なくとも次の三点を示しています。
- モデルの文体は、語料頻度だけでなく報酬信号から生まれうる。
- 訓練後期の小さな偏りが、安定した人格特性のように増幅されうる。
- 製品内のシステムプロンプトは問題を緩和できるが、モデル内部の傾向を消すわけではない。
これは大規模モデルのアラインメントで厄介な問題です。ユーザーは面白い回答を好みますが、面白さを強く最適化しすぎると、厳密な作業で軽く見えたり、反復的になったり、強すぎる癖が出たりします。
ユーザー側でできること
AI コーディングツールに固定された言い回しがある場合、必ずしもプロンプトの書き方が悪いとは限りません。モデル自身の訓練上の偏りから来ていることがあります。
緩和するには、次の方法があります。
- システムプロンプトやプロジェクトルールで口調を明示する。
- 擬人化、スラング、過度な冗談を避けるよう指定する。
- 技術タスクでは「直接的、簡潔、エンジニアリング寄り」の回答スタイルを指定する。
- 特定の語が繰り返し出る場合は、明示的に禁止表現に入れる。
こうした制約はモデル内部の重みを変えるものではありませんが、実際の使用時のノイズは減らせます。
まとめ
GPT-5.5 の goblin 口癖は、単なる笑い話ではありません。報酬信号が文体を形作り、その文体が製品場面へ移り、最終的にユーザーが人格特性として感じるようになる、という大規模モデル訓練の深い問題を示しています。
モデル開発者にとって、この種の問題は訓練、評価、製品プロンプトの三層で扱う必要があります。一般ユーザーにとって実用的なのは、期待する文体を明確に書くことです。少し表演を減らし、安定性を増やすためです。
参考: