OpenAI の新世代 Realtime 音声モデル:GPT-Realtime-2、リアルタイム翻訳、ストリーミング文字起こし

OpenAI が 2026 年 5 月に発表した新世代 Realtime API 音声モデル、GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisper の機能、用途、価格、開発者への影響を整理します。

OpenAI は 2026 年 5 月 7 日、新世代の Realtime API 向け音声モデルを発表しました。焦点は「より人間らしく話す」ことだけではなく、音声エージェントがリアルタイムの会話中に理解し、推論し、ツールを呼び出し、翻訳し、文字起こしできるようにすることです。

今回の更新には 3 つのモデルが含まれます。

  • GPT-Realtime-2:リアルタイム音声 Agent 向けの主力モデル。より強い推論、ツール呼び出し、長いコンテキストに対応します。
  • GPT-Realtime-Translate:70 以上の入力言語から 13 の出力言語へのリアルタイム音声翻訳モデル。
  • GPT-Realtime-Whisper:字幕、会議メモ、リアルタイムワークフロー向けの低遅延ストリーミング音声認識モデル。

初期の音声アシスタントが「一問一答」に近かったとすれば、今回の更新は「聞きながら作業する」音声インターフェースに近づいています。

GPT-Realtime-2:音声 Agent の主力モデル

GPT-Realtime-2 はリアルタイム音声対話向けに作られています。質問に答えるだけでなく、ユーザーが話し、言い直し、割り込み、条件を追加する間も文脈を保ち、必要に応じてツールを呼び出してタスクを完了します。

公式に強調されている機能は次の通りです。

  • 「確認します」のような短い前置きを返し、処理中であることをユーザーに伝えられる。
  • カレンダー、検索、注文、サポートシステムなどの複数ツールを並行して呼び出せる。
  • 失敗時の復帰がより自然で、会話が突然止まったり沈黙したりしにくい。
  • コンテキストウィンドウが 32K から 128K に拡大され、長い会話や複雑なタスクフローに対応しやすい。
  • 専門用語、固有名詞、医療用語などの保持が改善されている。
  • 冷静、共感的、確認的、明るいなど、場面に応じた話し方を制御しやすい。
  • reasoning effort は minimallowmediumhighxhigh から選択でき、デフォルトは low

これにより、開発者は単純な Q&A だけでなく、より複雑な業務に音声 Agent を組み込めます。たとえば、サポート Agent がユーザーの説明を聞きながら注文を確認したり、旅行アプリがフライト変更に応じて次の行動を提案したり、不動産アプリが口頭条件から物件を絞り込んで内見を予約したりできます。

リアルタイム翻訳:多言語音声プロダクト向け

GPT-Realtime-Translate はリアルタイム音声翻訳向けのモデルです。ユーザーは自分の言語で話し、相手は翻訳された音声を聞きながらリアルタイムの文字起こしも確認できます。

適した用途は明確です。

  • 多言語カスタマーサポート。
  • 越境営業やプリセールス。
  • オンライン教育やライブイベント。
  • 国際会議やイベント司会。
  • 動画プラットフォームやクリエイターコンテンツのローカライズ。

リアルタイム翻訳の難しさは、正確さだけではありません。低遅延、自然な間、トーンの保持、アクセントへの対応、専門語彙の処理も必要です。OpenAI は、発話全体を待ってから翻訳するのではなく、より自然な異言語会話に近づけることを強調しています。

ストリーミング文字起こし:音声をすぐにワークフローへ

GPT-Realtime-Whisper は新しいストリーミング音声認識モデルです。録音が終わるのを待つのではなく、話されている最中に音声を処理可能なテキストへ変換できる点に価値があります。

主な用途は次の通りです。

  • 会議のリアルタイム字幕。
  • 授業や配信の字幕。
  • リアルタイム議事録。
  • 音声 Agent への継続的な音声入力。
  • サポート、医療、採用、営業など高頻度の音声業務における後続処理。

プロダクト側では、ストリーミング文字起こしによって「話す」から「使えるテキスト」までの時間を短縮できます。字幕は早く表示され、会議メモは会話中に生成され、要約、タスク抽出、CRM 登録なども早く始められます。

価格と提供状況

3 つのモデルはいずれも Realtime API で利用できます。公式価格は次の通りです。

モデル 価格
GPT-Realtime-2 音声入力 $32 / 1M tokens、キャッシュ入力 $0.40 / 1M tokens、音声出力 $64 / 1M tokens
GPT-Realtime-Translate $0.034 / 分
GPT-Realtime-Whisper $0.017 / 分

OpenAI は Realtime API が EU Data Residency に対応し、エンタープライズ向けプライバシーコミットメントの対象であるとも述べています。欧州企業やデータ所在要件のある音声プロダクトでは、個別に評価すべき点です。

開発者にとっての意味

今回の発表で重要なのは、音声機能が単なる入出力層から、プロダクトの対話層へ移り始めていることです。

従来の多くの音声機能は、音声をテキストに変換し、テキスト応答を音声に戻すものでした。本当に難しいのは中間層です。ユーザー意図の理解、割り込み処理、文脈補完、ツール呼び出し、処理状況の説明、失敗時の自然な復帰が必要になります。

GPT-Realtime-2 はこの能力をリアルタイム音声モデル側に直接持たせようとしています。開発者が見るべきなのは単発の回答品質だけでなく、継続的な会話と多段階タスクを支えられるかどうかです。

優先的に試す価値があるプロダクトは次の通りです。

  • カスタマーサポート音声 Agent。
  • 車載およびモバイル音声アシスタント。
  • 旅行、予約、不動産、金融など、会話しながら検索や照会が必要なサービス。
  • 多言語会議や越境コミュニケーションツール。
  • リアルタイム字幕、議事録、通話品質管理システム。

安全性と告知も重要

OpenAI は発表ページで、Realtime API には複数の安全対策が含まれると説明しています。たとえばセッションに対するアクティブ分類や、ポリシー違反が検出された会話の停止です。開発者は Agents SDK を使って独自のガードレールを追加することもできます。

見落としやすい要件として、エンドユーザーが AI と対話していることを明確に知らせる必要があります。ただし、文脈上それが明らかな場合は例外です。

これはサポート、営業、教育、医療などで特に重要です。音声が自然になるほど、プロダクト設計上の境界も明確にする必要があります。ユーザーは自分が AI と話していること、どの操作が記録、文字起こし、ツール呼び出しにつながるのかを理解できるべきです。

まとめ

OpenAI の今回の Realtime API 更新は、リアルタイム音声を「聞いて話せる」段階から「聞きながらタスクを処理できる」段階へ進めるものです。

GPT-Realtime-2 は複雑な音声 Agent、GPT-Realtime-Translate は異言語間のリアルタイム会話、GPT-Realtime-Whisper は低遅延文字起こしを担当します。3 つを合わせると、音声プロダクトでよく必要になる会話、翻訳、文字起こしをカバーできます。

サポート、車載、会議、教育、越境コミュニケーション、モバイル音声アシスタントを作っているなら、この更新は重点的に試す価値があります。検証すべきなのは、自然に聞こえるかだけではなく、長い会話、割り込み、ツール呼び出し、失敗復帰、コスト管理でどう振る舞うかです。

参考リンク:

记录并分享
Hugo で構築されています。
テーマ StackJimmy によって設計されています。