OpenAI が GPT-5.5 を発表：より強力なエージェント型コーディング、知識作業、研究支援

OpenAI は 2026 年 4 月 23 日に Introducing GPT-5.5 を公開しました。公式ページを見る限り、今回の更新は単に「モデルが賢くなった」という話ではなく、複雑なタスクをどこまで継続して進められるかに重点があります。

OpenAI は GPT-5.5 を、実際の仕事により適したモデルとして位置づけています。質問に答えるだけでなく、コードを書き、デバッグし、情報を調べ、データを分析し、文書やスプレッドシートを作成し、ソフトウェアを操作し、複数のツールを行き来しながらタスクを完了することが期待されています。

1. GPT-5.5 はどこが強いのか

今回の発表ページで繰り返し強調されている方向性は、大きく次の 4 つです。

エージェント型コーディング
コンピューター操作とツール利用
知識作業
初期段階の科学研究支援

つまり、GPT-5.5 の重点は短い質疑応答ではなく、より長い流れを持つタスクです。たとえばエンジニアリング上の問題は、「このコードをどう直すか」だけではありません。プロジェクト構造を理解し、失敗原因を特定し、関連ファイルを修正し、テストを追加し、結果を検証し、ユーザーが何度も指示しなくても前に進める必要があります。

OpenAI は、GPT-5.5 が Codex のタスクでより少ない token を使うことも強調しています。これは実務上かなり重要です。コーディングエージェントは、ファイルを読み、コマンドを実行し、bug を直し始めると、token 消費がすぐに増えます。同じタスクを少ない手順で完了できれば、実際のコストと待ち時間の両方が下がります。

2. コーディング能力が今回の中心的な見せ場

OpenAI は GPT-5.5 を、現時点で最も強力な agentic coding モデルだと説明しています。

公開されている指標の中で、とくに注目したいものは次の通りです。

Terminal-Bench 2.0：GPT-5.5 は 82.7%
SWE-Bench Pro：GPT-5.5 は 58.6%
OpenAI 内部の Expert-SWE：GPT-5.5 は GPT-5.4 を上回る

これらの評価に共通しているのは、単一のアルゴリズム問題よりも、実際の開発フローに近いことです。特に Terminal-Bench のようなタスクでは、コマンドライン操作、計画、試行錯誤、ツール連携、複数ステップの検証が必要になります。

日常的に開発する人にとって、ここでの意味は明確です。モデルがより大きなタスクを受け止められるかどうかは、長時間コンテキストを保てるか、自分の仮説を検証できるか、いつテストを走らせるべきかを判断できるか、変更がどこに影響するかを理解できるかにかかっています。

Codex における GPT-5.5 の価値も、主にこうした振る舞いに表れます。コード断片を補完するだけのツールというより、エンジニアリング作業の一部を任せられる協力者に近づいています。

3. 知識作業が重要な利用シーンになっている

コードを書くことに加えて、OpenAI は今回 GPT-5.5 をより広いオフィス作業の文脈にも置いています。

公式発表では、GPT-5.5 は Codex で文書、スプレッドシート、スライド資料をよりうまく生成でき、業務調査、表計算モデル、ビジネス資料の整理にも向いているとされています。コンピューター操作能力と組み合わせると、その目標は単に助言することではなく、「情報を探す、内容を理解する、ツールを使う、出力を確認する、結果として整理する」という一連の流れに直接参加することです。

発表ページでは、OpenAI 社内ですでにソフトウェアエンジニアリング、財務、コミュニケーション、マーケティング、データサイエンス、プロダクト管理など、多くの部門で Codex が使われていることにも触れています。ここで注目すべきなのは個別の事例ではなく、OpenAI が Codex を開発者向けツールから汎用的な仕事用ツールへ広げようとしている点です。

ChatGPT では、GPT-5.5 Thinking が Plus、Pro、Business、Enterprise ユーザー向けに提供されます。GPT-5.5 Pro は、より難しい問題や高い正確性が必要な作業向けで、Pro、Business、Enterprise ユーザーが利用できます。

4. 研究能力は「答えがうまい」だけではない

GPT-5.5 は研究支援の面でも大きく紹介されています。

OpenAI は、遺伝学、定量生物学、バイオインフォマティクス、数学証明などの領域で改善があると述べています。ここで重要なのは、モデルが知識を暗記しているかどうかではなく、より現実の研究に近い問題を扱えるかどうかです。データを読み、異常を見つけ、分析方法を提案し、結果を解釈し、中間結果に基づいてさらに進める必要があります。

発表ページに登場する GeneBench と BixBench は、どちらも多段階の科学分析タスク寄りの評価です。OpenAI はさらに、カスタムハーネスを使った GPT-5.5 の内部版が Ramsey numbers に関する新しい証明の発見を助け、その証明が Lean で検証されたとも述べています。

こうした事例を「AI がすでに独立して研究できる」と単純に捉えるべきではありません。ただし、モデルが質問応答ツールから研究協力者へ近づいていることは示しています。特に、コード、データ、論文、実験アイデアが混ざる場面では、GPT-5.5 の長い推論とツール利用能力がより重要になります。

5. 推論効率：強くなっても大きく遅くならない

見落としやすい点として、OpenAI は GPT-5.5 の実運用における per-token latency が GPT-5.4 と同等だと説明しています。

通常、より大きく強力なモデルは高い遅延を伴います。今回 OpenAI は、推論システムの最適化によって、GPT-5.5 の能力を高めながら速度を維持したと強調しています。発表ページでは、Codex が本番トラフィックのパターンを分析し、負荷分散に関するヒューリスティックアルゴリズムを書いたことで、token 生成速度が 20% 以上向上したとも述べられています。

この点は興味深いところです。モデルはインフラに提供されるだけでなく、自分自身を提供するインフラの改善にも役立っているからです。

6. 安全対策はより厳しくなる、とくにサイバーセキュリティ領域

GPT-5.5 はサイバーセキュリティ能力も強くなっているため、OpenAI は安全制限も同時に強化しています。

公式説明では、GPT-5.5 はサイバーセキュリティ能力で GPT-5.4 より向上しているため、より厳格な分類器を導入するとされています。特に、高リスク活動、機微なサイバーセキュリティ関連リクエスト、繰り返しの悪用に対して厳しくなります。

そのため、一部のユーザーはサイバーセキュリティ関連の作業で、より多くの拒否や制限に遭遇する可能性があります。OpenAI は Trusted Access for Cyber も用意しており、検証済みの防御目的のユーザーが不要な制限を受けにくくする仕組みを提供しています。

一般的な開発者にとっては、合法的なセキュリティ強化、脆弱性修正、コード監査は引き続き支援される一方、高リスクな攻撃フローはより厳しく制御される、と理解すればよさそうです。

7. 利用可能範囲と API 価格

OpenAI の発表ページによると、GPT-5.5 の利用可能範囲は次の通りです。

ChatGPT：GPT-5.5 Thinking は Plus、Pro、Business、Enterprise ユーザー向け
ChatGPT：GPT-5.5 Pro は Pro、Business、Enterprise ユーザー向け
Codex：GPT-5.5 は Plus、Pro、Business、Enterprise、Edu、Go プラン向け
Codex：コンテキストウィンドウは 400K
Codex Fast mode：生成速度は約 1.5x、コストは 2.5x

API については、OpenAI は gpt-5.5 と gpt-5.5-pro を近く提供するとしています。

公式に示された API 価格は次の通りです。

gpt-5.5：入力 5 米ドル / 1M tokens、出力 30 米ドル / 1M tokens
gpt-5.5-pro：入力 30 米ドル / 1M tokens、出力 180 米ドル / 1M tokens
gpt-5.5 API のコンテキストウィンドウは 1M
Batch と Flex は標準 API 価格の半額
Priority processing は標準価格の 2.5x

この価格は多くの日常用途向けモデルより明らかに高いため、普通の雑談よりも、複雑な工程変更、長文書分析、オフィス自動化、研究支援、重要な業務フローのような高価値タスクに向いています。

8. 今回の発表をどう見るか

一言で言えば、GPT-5.5 の重点は、OpenAI がモデルを「質問に答えるもの」から「仕事を完了するもの」へさらに進めていることです。

注目すべきなのは benchmark の点数だけではありません。いくつかの能力が合流し始めています。

より強い長時間タスク維持能力
より安定したツール利用
より良いエンジニアリング文脈理解
文書、スプレッドシート、研究、業務フローへの適性
より長いコンテキストと高い token 効率
高リスク能力に対するより厳格な制御

開発者にとって最も試す価値があるのは、Codex での複雑なエンジニアリングタスクです。企業ユーザーにとっては、ツール、文書、業務プロセスをまたぐ一部の作業を、実際に納品できる成果物へ変えられるかが重要になります。

GPT-5.5 は、チャット体験だけを対象にした小さな更新ではありません。OpenAI が「仕事の実行層としての AI」をさらに進める一歩に見えます。