GPT-5.5、GPT-5.4、GPT-5.3-Codex はどう使い分けるべきか

結論だけ先に言うと、基本は GPT-5.5、コストや使用量をより重視するなら GPT-5.4、そして Codex 環境で長時間のソフトウェアエンジニアリング作業を回したり、Cloud Tasks や Code Review が必要だったりする場合に GPT-5.3-Codex を重点的に見る、という選び方になります。

これは単なる主観ではありません。2026-05-10 時点でも、OpenAI の Codex 公式ドキュメントでは、多くのタスクは gpt-5.5 から始めることを推奨しています。まだ gpt-5.5 が使えない場合は gpt-5.4 を使い、軽いタスクやサブエージェントには gpt-5.4-mini が向いている、という整理です。

3 つのモデルの位置づけ

まずは公式の位置づけから見ます。

GPT-5.5 は Codex における最新のフロンティアモデルで、複雑なコーディング、コンピュータ操作、ナレッジワーク、リサーチワークフロー向けです。難しい分析、多段階タスク、複数ファイルにまたがる修正、方針設計、重めのドキュメント作業に向く、いわば標準の主力モデルです。

GPT-5.4 はより安定した万能型の選択肢です。公式には、GPT-5.3-Codex の高いコーディング能力に、より強い推論、ツール使用、agentic workflow を組み合わせたモデルと説明されています。つまり、単なる「5.5 の弱い版」ではなく、長期的な主力として使いやすいバランス型です。

GPT-5.3-Codex も依然として非常に強いコーディングモデルですが、強みは実際のソフトウェアエンジニアリングや Codex ネイティブのワークフローにより集中しています。公式ドキュメントでも agentic coding tasks 向けに最適化されたモデルだとされており、GPT-5.4 のコーディング能力自体もその長所を引き継いでいます。

そのため、今の時点では GPT-5.3-Codex をそのまま「最強のコーディングモデル」と考えるのはあまり適切ではありません。日常的な開発では、まず GPT-5.5 と GPT-5.4 を優先して検討するほうが自然です。

用途別にどう選ぶか

日常の Q&A、難しい説明、資料整理、ファイル分析、長文の情報統合のような仕事なら、GPT-5.5 が最も向いています。コードを書くだけでなく、コード以外の負荷の高い知的作業にも強いからです。

複雑なプログラミング、リファクタリング、デバッグ、アーキテクチャ設計、複数ファイルの修正なら、やはり GPT-5.5 が第一候補です。Codex 公式の推奨も同じで、gpt-5.5 が使えるならまずそこから始める、という扱いです。

一方で、品質をある程度維持しながら消費量やコストを抑えたいなら、GPT-5.4 がより現実的な標準モデルになります。通常の開発、一般的なリライト、標準的な翻訳、スクリプト生成、バグ修正の多くでは、GPT-5.4 で十分に強く、しかもクレジット消費を抑えやすいからです。

Codex CLI、IDE 拡張、アプリで、よりエージェント的なソフトウェアエンジニアリング作業を回す場合、たとえば長時間リポジトリを読ませる、継続的にコードを書き換える、タスクをキューに積む、Cloud Tasks や Code Review を使うといった場面では、GPT-5.3-Codex にまだ意味があります。これは GPT-5.5 より新しいからではなく、Codex の Cloud Tasks と Code Review が今も GPT-5.3-Codex で動いているからです。

クレジット消費はどれくらい違うか

Codex の credits 表を見ると、この 3 つの違いはかなりはっきりしています。

Business / New Enterprise のトークン単位の料金では、次の通りです。

GPT-5.5：入力 125 credits / 1M tokens、キャッシュ入力 12.5 credits、出力 750 credits
GPT-5.4：入力 62.5 credits / 1M tokens、キャッシュ入力 6.25 credits、出力 375 credits
GPT-5.3-Codex：入力 43.75 credits / 1M tokens、キャッシュ入力 4.375 credits、出力 350 credits

表面的な単価だけで見ると、GPT-5.4 は GPT-5.5 のほぼ半額です。同じくらいの入出力長で処理するなら、一般には 50% 近く節約できると考えてよいでしょう。GPT-5.3-Codex は入力がより安いものの、出力コストはすでに GPT-5.4 にかなり近いため、「圧倒的に安い選択肢」というわけではありません。

ただし見落としやすい点もあります。Codex 公式には、GPT-5.5 uses significantly fewer tokens to achieve results comparable to GPT-5.4 とあります。つまり単価は高くても、複雑なタスクではトークン使用量の少なさややり直しの減少によって、差が縮まる可能性があります。

それでも、固定テンプレートの記事リライト、翻訳、SEO 説明文のように入出力の長さが比較的安定している仕事では、この「遠回りの少なさ」の恩恵は、複雑なソフトウェアエンジニアリングほど大きくありません。実運用では、GPT-5.4 のほうがやはり安く、だいたい 45% から 50% ほど節約できると考えてよいケースが多いです。

Codex での利用制限の違い

単価だけでなく、Codex 内での使え方も同じではありません。

2026-05-10 時点では、GPT-5.5 は Codex の推奨モデルですが、ChatGPT サインインで使う Codex でのみ利用でき、API key 認証には対応していません。GPT-5.4 と GPT-5.3-Codex は API から利用できます。

また、GPT-5.5 と GPT-5.4 は現時点で Codex Cloud Tasks と Code Review をサポートしていません。この 2 つは今も GPT-5.3-Codex の領域です。つまり、Codex 内で長時間のエンジニアリング作業を回したい場合は、単純にモデルの強さだけでなく、必要な機能が GPT-5.3-Codex に依存していないかも確認する必要があります。

ローカルメッセージだけを使う場合、Plus プランの 5 時間ウィンドウの目安は次の通りです。

GPT-5.5：15-80
GPT-5.4：20-100
GPT-5.3-Codex：30-150

ここからも現実的な違いが見えます。GPT-5.5 は最も強力ですが、固定枠の中では使える回数が少なくなりやすい。GPT-5.4 はよりバランスが良く、GPT-5.3-Codex はローカルメッセージだけを見ると、むしろ粘り強く見えることがあります。

よくある場面ではどう選ぶか

日常業務には、かなり種類の違う高頻度タスクがあります。抽象的に「どれが一番強いか」を考えるより、場面ごとに分けて見るほうが実用的です。

1. 日常の Q&A、資料整理、長文要約

GPT-5.5：最も向いています。曖昧な依頼を処理し、文脈を補い、散らばった情報を構造化するのが得意です。

GPT-5.4：通常の要約や大量整理に向いています。難度が高くなく、量が多いならより経済的です。

GPT-5.3-Codex：主力にはあまり向きません。こなせますが、もっとも得意な領域ではありません。

2. 技術概念の説明、コード解説、古いプロジェクトの読解

GPT-5.5：複雑なプロジェクト向きです。ファイル間の関係が多い、呼び出し経路が長い、歴史的経緯が重い、といった場合により安定します。

GPT-5.4：通常の読解には十分です。関数やモジュールの理解、設定の説明、既存プロジェクトの立ち上がり支援に向いています。

GPT-5.3-Codex：より実行寄りで、解説中心の用途では第一候補ではありません。

3. スクリプト、小ツール、SQL、Shell、正規表現

GPT-5.5：スクリプトの背後にシステム設計があったり、複数サービスが連動したり、制約が複雑だったりする場合に向いています。

GPT-5.4：標準の主力として最も使いやすいです。多くのスクリプト、小ツール、SQL、コマンドライン作業には十分で、しかもクレジット効率が良いです。

GPT-5.3-Codex：スクリプトが大きなエージェントワークフローの一部なら候補になりますが、単体の小さなスクリプト作成で優先する必要はありません。

4. バグ修正、小機能追加、テスト補完、通常開発

GPT-5.5：原因分析、複数ファイル修正、テスト補完まで含む少し重い修正に向いています。

GPT-5.4：日常開発の主力として最適です。一般的なバグ、小機能、テストのひな形、リネーム、整形などでは最もバランスが良いです。

GPT-5.3-Codex：対応できますが、Cloud Tasks やエンジニアリングエージェントが不要なら、普通は第一候補ではありません。

5. 複雑なリファクタリング、設計検討、難しいデバッグ

GPT-5.5：最も向いています。複雑な作業で本当に高くつくのは単発の出力ではなく、やり直しだからです。GPT-5.5 は主問題解決モデルとして使いやすいです。

GPT-5.4：中程度の難しさには向いています。設計案やリファクタリングにも使えますが、非常に長い文脈、多段階推論、不確実性の高い問題では GPT-5.5 ほど安定しないことが多いです。

GPT-5.3-Codex：より実行寄りで、この種の高難度な判断中心タスクでは優先順位は低めです。

6. 大量の軽作業、反復作業、サブタスク分割

GPT-5.5：できますが、通常は割高です。

GPT-5.4：最も向いています。コメントの一括修正、整形の一括処理、定型コード生成、内容のまとめて修正といった場面で最もバランスが良いです。

GPT-5.3-Codex：すでに Codex のエンジニアリングフローの中に組み込まれているなら候補ですが、単純な費用対効果では GPT-5.4 に劣りやすいです。

7. 自動化パイプライン、エージェント実行、継続的なリポジトリ操作

GPT-5.5：初期の設計、ルール作成、複雑なタスク分解に向いています。

GPT-5.4：自動化スクリプトや中程度のワークフローロジックの実装に向いており、特に API から使いたい場合に便利です。

GPT-5.3-Codex：ここでは特に重要です。Codex の Cloud Tasks と Code Review が今もこのモデルで動いているため、「仕組みを自走させる」場面に向いています。

8. 重要ページの文章、ブランド紹介、最終仕上げ

GPT-5.5：最も向いています。自然さ、文体制御、長文の一貫性が最も高いです。

GPT-5.4：通常ページや日常更新には十分です。重要ページは GPT-5.4 で下書きを作り、最後に GPT-5.5 で磨くのが実用的です。

GPT-5.3-Codex：主文案モデルには向きません。

9. 固定テンプレートの記事リライト、翻訳、SEO 説明文

GPT-5.5：テンプレート設計、最終調整、重要ページの仕上げ、より自然な中国語から英語への翻訳に向いています。

GPT-5.4：大量処理の主力に最も向いています。標準的な記事リライト、固定構成の翻訳、商品文案の書き換え、Meta description の一括生成では、品質とコストのバランスが良いです。

GPT-5.3-Codex：主文案モデルには向きません。バッチ処理スクリプト、HTML の整形、タグ構造の保持、自動公開フローの改善などに向いています。

10. EC 商品文案、カテゴリページ、大量コンテンツ運用

GPT-5.5：ルール設計、抜き取り確認、高価値ページの最終仕上げに向いています。

GPT-5.4：大量処理の主力として最適です。商品タイトル、カテゴリ説明、キャンペーン文案、ロングテール SEO コンテンツなどでは、品質とコストのバランスが良いです。

GPT-5.3-Codex：クロール、クリーニング、バッチ処理、自動公開スクリプトには向いていますが、主文案にはあまり向きません。

これらを一言でまとめるなら、次のようになります。

複雑な知的作業、複雑な分析、重要な文章作成：GPT-5.5
日常開発、大量処理、反復作業：GPT-5.4
Codex エンジニアリングエージェント、Cloud Tasks、Code Review：GPT-5.3-Codex

最後にどう使い分けるか

普段の仕事が通常のコーディング、バグ修正、技術相談、付随するドキュメント作成であれば、GPT-5.4 は非常に安定した主力になります。

より複雑なプロジェクト分析、複数ファイルの修正、設計検討、難しいデバッグ、あるいはエンジニアリングと重い知的作業の両方を 1 つのモデルでこなしたいなら、素直に GPT-5.5 を優先するのがよいです。

一方で、Codex 環境そのもののワークフロー、たとえば Cloud Tasks、Code Review、長時間のエージェント実行が重要なら、GPT-5.3-Codex はまだ残す価値があります。ただし、もはや最初の既定選択にするモデルではありません。

固定テンプレートのコンテンツサイトであれば、実用的な組み合わせは次のようになります。

GPT-5.4 で大量生成
GPT-5.5 でテンプレート設計、抜き取り確認、最終仕上げ
GPT-5.3-Codex で自動化ツールを書く

まとめ

現在のより現実的な優先順は、GPT-5.5、GPT-5.4、GPT-5.3-Codex の順です。GPT-5.3-Codex は、よりエンジニアリングエージェント寄り、あるいは Codex 固有機能寄りの場面に置くのが自然です。

もし「同じテンプレート記事をリライトする場合、GPT-5.4 は GPT-5.5 よりどれくらい節約できるのか」を知りたいなら、公式の credits 表とこの種のタスクに典型的なトークン構造を見る限り、「ほぼ半分近く節約できる」と考えてよいでしょう。大量コンテンツサイトではその差は十分に大きいため、GPT-5.5 を最初に使ってルールと文体を固め、その後の大量処理を GPT-5.4 に任せる、という運用がもっとも現実的です。