<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>AI安全性 on KnightLiブログ</title>
        <link>https://www.knightli.com/ja/tags/ai%E5%AE%89%E5%85%A8%E6%80%A7/</link>
        <description>Recent content in AI安全性 on KnightLiブログ</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>ja</language>
        <lastBuildDate>Sat, 02 May 2026 11:02:16 +0800</lastBuildDate><atom:link href="https://www.knightli.com/ja/tags/ai%E5%AE%89%E5%85%A8%E6%80%A7/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>誰が GPT-5.5 にゴブリンを入れたのか？</title>
        <link>https://www.knightli.com/ja/2026/05/02/openai-gpt-5-5-goblin-behavior/</link>
        <pubDate>Sat, 02 May 2026 11:02:16 +0800</pubDate>
        
        <guid>https://www.knightli.com/ja/2026/05/02/openai-gpt-5-5-goblin-behavior/</guid>
        <description>&lt;p&gt;OpenAI は最近、小さいけれど示唆の多い問題を振り返りました。なぜ GPT-5.5 は Codex で &lt;code&gt;goblin&lt;/code&gt; や &lt;code&gt;gremlin&lt;/code&gt; のような表現を頻繁に使うようになったのか、という話です。&lt;/p&gt;
&lt;p&gt;これは単なる口癖の問題ではありません。モデル訓練でよく起きる現象を示しています。モデルは特定の単語を直接覚えたのではなく、強化学習の過程で「報酬されやすい」表現スタイルを学んだ可能性があります。&lt;/p&gt;
&lt;h2 id=&#34;何が起きたのか&#34;&gt;何が起きたのか
&lt;/h2&gt;&lt;p&gt;GPT-5.5 の訓練後期、Codex ユーザーは、モデルがコード問題、テスト失敗、異常な挙動を説明するとき、擬人化された表現を好むことに気づき始めました。&lt;/p&gt;
&lt;p&gt;OpenAI 内部でも同様の現象が観察されました。GPT-5.5 は以前のバージョンと比べて、&lt;code&gt;goblin&lt;/code&gt; や &lt;code&gt;gremlin&lt;/code&gt; などの語をより頻繁に使っていました。研究チームはこれを一種の奇妙な人格特性として扱い、その出どころを追跡しました。&lt;/p&gt;
&lt;h2 id=&#34;単なるデータの復唱ではない&#34;&gt;単なるデータの復唱ではない
&lt;/h2&gt;&lt;p&gt;最初に考えられるのは、訓練データにこうした表現が多く含まれていて、モデルが高頻度語を学んだだけという説明です。&lt;/p&gt;
&lt;p&gt;しかし OpenAI の調査では、それだけでは説明できませんでした。事前学習データ内に関連語は存在したものの、訓練後期の行動変化を説明できるほど多くはありませんでした。より重要なのは、強化学習の前後で挙動が大きく変わっていたことです。後期訓練がこのスタイルを増幅していました。&lt;/p&gt;
&lt;p&gt;つまり問題は「データに何があるか」だけではなく、訓練過程が何を報酬したかにあります。&lt;/p&gt;
&lt;h2 id=&#34;強化学習が文体の偏りを増幅した&#34;&gt;強化学習が文体の偏りを増幅した
&lt;/h2&gt;&lt;p&gt;OpenAI の分析では、重要な変化は強化学習段階で起きていました。GPT-5.5 は、より生き生きして、識別しやすく、人格があるように見える書き方を学びました。そして、軽い冗談めいた語がそのスタイルにうまく合っていました。&lt;/p&gt;
&lt;p&gt;簡単に言うと、モデルは次のような傾向を学んだ可能性があります。&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;個性のある回答は好まれやすい。&lt;/li&gt;
&lt;li&gt;技術的な問題を軽い比喩で説明すると評価が良くなりやすい。&lt;/li&gt;
&lt;li&gt;特定の語は、かわいさ、機転、遊び心を加える。&lt;/li&gt;
&lt;li&gt;こうした局所的な報酬が訓練で増幅される。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;その結果、モデルは頻繁に使えと明示されたわけではないのに、特定の場面で安定してその語を使うようになりました。&lt;/p&gt;
&lt;h2 id=&#34;原因は-nerdy-ペルソナだった&#34;&gt;原因は Nerdy ペルソナだった
&lt;/h2&gt;&lt;p&gt;データをたどると、OpenAI はすぐに具体的な分岐を見つけました。パーソナライズ設定の &lt;code&gt;Nerdy&lt;/code&gt; ペルソナです。&lt;/p&gt;
&lt;p&gt;このモードの目的は、AI を「オタク気質のチューター」にすることでした。熱心で、機知があり、知識と批判的思考を重んじ、なおかつ堅苦しすぎない。人間から見ると、求めていることは明確です。ギークらしさとユーモアです。&lt;/p&gt;
&lt;p&gt;しかしモデルは、ユーモアの境界を本当に理解しているわけではありません。強化学習のフィードバックの中で、&lt;code&gt;goblin&lt;/code&gt; のような比喩を使うと、軽妙で、賢く、Nerdy らしく見え、高得点を取りやすいという近道を学びました。&lt;/p&gt;
&lt;p&gt;数字にも表れています。GPT-5.2 から GPT-5.4 にかけて、デフォルト人格での &lt;code&gt;goblin&lt;/code&gt; 出現頻度の変化は -3.2% にすぎませんでした。一方、&lt;code&gt;Nerdy&lt;/code&gt; 人格では 3881.4% も増えました。さらに、&lt;code&gt;Nerdy&lt;/code&gt; モードは ChatGPT の全会話の 2.5% しか占めないのに、&lt;code&gt;goblin&lt;/code&gt; 使用量の 66.7% を生み出していました。&lt;/p&gt;
&lt;p&gt;つまり問題は単語そのものではありません。報酬信号が「ユーモラスに見える」表現を固定された文体へ押し上げたのです。&lt;/p&gt;
&lt;h2 id=&#34;codex-で目立った理由&#34;&gt;Codex で目立った理由
&lt;/h2&gt;&lt;p&gt;Codex ではこの問題がより目立ちました。コード作業では、bug、テスト失敗、環境差、境界挙動が頻繁に出てきます。モデルはそれらを擬人化しやすくなります。&lt;/p&gt;
&lt;p&gt;モデルが「このエラーは変だ」「このテストは不安定だ」「この挙動はいたずらっぽい」と軽く説明しようとすると、この種の語を選びやすくなります。積み重なると、ユーザーには固定口癖のように見えます。&lt;/p&gt;
&lt;p&gt;OpenAI はその後、Codex のシステムプロンプトに抑制指示を追加し、この種の表現を避けるよう明示しました。これはモデルを再訓練するものではなく、製品側で挙動を抑える対応です。&lt;/p&gt;
&lt;h2 id=&#34;この件が示すこと&#34;&gt;この件が示すこと
&lt;/h2&gt;&lt;p&gt;この事例の要点は、特定の単語ではなく、モデルの挙動がどう形成されるかです。&lt;/p&gt;
&lt;p&gt;少なくとも次の三点を示しています。&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;モデルの文体は、語料頻度だけでなく報酬信号から生まれうる。&lt;/li&gt;
&lt;li&gt;訓練後期の小さな偏りが、安定した人格特性のように増幅されうる。&lt;/li&gt;
&lt;li&gt;製品内のシステムプロンプトは問題を緩和できるが、モデル内部の傾向を消すわけではない。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;これは大規模モデルのアラインメントで厄介な問題です。ユーザーは面白い回答を好みますが、面白さを強く最適化しすぎると、厳密な作業で軽く見えたり、反復的になったり、強すぎる癖が出たりします。&lt;/p&gt;
&lt;h2 id=&#34;ユーザー側でできること&#34;&gt;ユーザー側でできること
&lt;/h2&gt;&lt;p&gt;AI コーディングツールに固定された言い回しがある場合、必ずしもプロンプトの書き方が悪いとは限りません。モデル自身の訓練上の偏りから来ていることがあります。&lt;/p&gt;
&lt;p&gt;緩和するには、次の方法があります。&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;システムプロンプトやプロジェクトルールで口調を明示する。&lt;/li&gt;
&lt;li&gt;擬人化、スラング、過度な冗談を避けるよう指定する。&lt;/li&gt;
&lt;li&gt;技術タスクでは「直接的、簡潔、エンジニアリング寄り」の回答スタイルを指定する。&lt;/li&gt;
&lt;li&gt;特定の語が繰り返し出る場合は、明示的に禁止表現に入れる。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;こうした制約はモデル内部の重みを変えるものではありませんが、実際の使用時のノイズは減らせます。&lt;/p&gt;
&lt;h2 id=&#34;まとめ&#34;&gt;まとめ
&lt;/h2&gt;&lt;p&gt;GPT-5.5 の &lt;code&gt;goblin&lt;/code&gt; 口癖は、単なる笑い話ではありません。報酬信号が文体を形作り、その文体が製品場面へ移り、最終的にユーザーが人格特性として感じるようになる、という大規模モデル訓練の深い問題を示しています。&lt;/p&gt;
&lt;p&gt;モデル開発者にとって、この種の問題は訓練、評価、製品プロンプトの三層で扱う必要があります。一般ユーザーにとって実用的なのは、期待する文体を明確に書くことです。少し表演を減らし、安定性を増やすためです。&lt;/p&gt;
&lt;p&gt;参考：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://openai.com/index/where-the-goblins-came-from/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://openai.com/index/where-the-goblins-came-from/&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        
    </channel>
</rss>
