NVIDIA、Nemotron 3 Nano Omni を発表：エージェント向けのオープンな全モーダル推論モデル

NVIDIA は Nemotron 3 Nano Omni を発表した。これはエージェントワークフロー向けに設計された、オープンな全モーダル推論モデルである。重点は単なるテキスト問答ではなく、言語、視覚、音声を同じ推論フレームワークに入れ、実際の作業フローに近い入力を扱えるようにすることにある。

位置付けとして、Nemotron 3 Nano Omni は AI Agent のための基盤モデルに近い。画面、文書、画像、音声、動画に含まれる情報を理解し、それを実行可能な推論結果へ変換できる。この能力は、コンピューター操作、文書インテリジェンス、動画理解、音声対話、カスタマーサポート、教育、企業プロセスの自動化に向いている。

モデル仕様

Nemotron 3 Nano Omni は MoE アーキテクチャを採用している。 NVIDIA が示している主な仕様は次の通り。

項目	情報
モデル名	`Nemotron 3 Nano Omni`
アーキテクチャ	MoE
パラメータ規模	30B total / 3B active
モダリティ	テキスト、画像、音声、動画
コンテキスト長	256K token
ライセンス	Apache 2.0
主なデプロイ方向	AI Agent、マルチモーダル推論、企業向けエージェント

ここで最も注目したいのは 30B-A3B だ。これはモデル全体では約 30B パラメータを持つが、各推論では約 3B パラメータだけを有効化するという意味である。能力と推論コストのあいだで折り合いを付ける設計であり、大きなエキスパート容量を保ちながら、実行時にはその一部だけを使う。

ただし、MoE の active params は、VRAM を 3B モデル相当で見積もってよいという意味ではない。完全にデプロイするには、エキスパート重み、KV cache、視覚/音声エンコーダーモジュール、コンテキスト長、推論フレームワークのオーバーヘッドを考慮する必要がある。

解決しようとしているのは単一モーダルの問題ではない

従来の大規模言語モデルは主にテキストを処理する。マルチモーダルモデルはそこからさらに画像理解をサポートする。一方で Nemotron 3 Nano Omni の狙いはもっと広く、テキスト、画像、音声、動画をまとめて推論に取り込む全モーダル入力を重視している。

これは Agent にとって重要だ。実際のエージェントタスクは、「ある文章を受け取って別の文章を生成する」だけではないことが多い。たとえば次のようなものだ。

画面上のボタン、表、ウィンドウを見る。
PDF、スクリーンショット、グラフ、Web ページを読む。
音声の説明や会議録音を聞く。
動画内の動作、場面、時系列を理解する。
それらの情報を統合して次の操作に変換する。

モデルが単一モーダルしか扱えない場合、Agent は複数の専用モデルを追加でつなぎ合わせる必要がある。全モーダルモデルの価値は、この接続コストを減らし、同じモデルでより複雑な環境入力を直接処理できる点にある。

コンピューター操作と文書インテリジェンス向け

NVIDIA は、Nemotron 3 Nano Omni がコンピューター操作に関連するタスクに使えることを特に挙げている。この種のタスクでは、モデルがユーザーインターフェースを理解する必要がある。

画面上にどのようなコントロールがあるか。
現在のウィンドウがどの状態にあるか。
次に対象となるボタンやメニューはどれか。
表、ダイアログ、入力欄の内容が何を意味するか。

これは、現在の AI Agent が実際に使われる場面で避けて通りにくい能力でもある。エージェントがオフィスソフト、ブラウザ、企業向け管理画面、開発ツールの操作を支援するなら、API ドキュメントを読むだけではなく、画面を理解できなければならない。

文書インテリジェンスも同じ発想に近い。企業資料には、テキスト、表、画像、スキャンページ、グラフが混在していることが多い。全モーダルモデルはそれらを同じコンテキストに入れて理解できるため、契約書レビュー、レポート分析、請求書処理、ナレッジベースQA、プロセス自動化に向いている。

音声と動画が Agent をより現実の場面に近づける

音声と動画の入力は、Agent の応用範囲を大きく広げる。

音声の場面には次のようなものがある。

会議録音の要約。
カスタマーサポート通話の分析。
音声指示の理解。
教育・研修コンテンツの整理。

動画の場面には次のようなものがある。

教学動画の理解。
セキュリティや産業点検。
画面録画の分析。
操作フローの振り返り。
複数ステップのタスクにおける時系列判断。

これらのタスクを文字起こしだけで処理すると、多くの視覚情報や時系列情報が失われる。全モーダルモデルなら、音声、画面、テキストの手がかりを直接組み合わせ、Agent により完全な環境認識を与えられる。

デプロイとエコシステム

NVIDIA は Nemotron 3 Nano Omni をオープンなエコシステムに置いており、モデルは Apache 2.0 ライセンスを採用している。これは開発者や企業にとって重要だ。実験、統合、二次開発のライセンス上のハードルを下げるからである。

NVIDIA の説明を見ると、このモデルは同社の推論エコシステムとも強く結び付いている。企業ユーザーが実際にデプロイする際には、通常次のような点が気になる。

NVIDIA GPU 上で効率よく推論できるか。
長いコンテキストとマルチモーダル入力をサポートするか。
既存の Agent フレームワークに接続できるか。
社内文書、音声・動画、UI スクリーンショットを処理できるか。
プライベート環境にデプロイできるか。

NVIDIA はこのモデルのスループット面での優位性を強調しており、同種のオープンな全モーダル推論モデルに対して最大 9 倍に達するとしている。この数字の実際の価値は、具体的なハードウェア、コンテキスト長、入力モダリティ、推論フレームワークとあわせて見る必要がある。ただし方向性は明確だ。 NVIDIA はオープンなマルチモーダルモデルと自社の推論インフラを組み合わせ、企業向け Agent の場面へ押し出そうとしている。

向いている用途

Nemotron 3 Nano Omni は、次のようなタスクにより向いている。

テキスト、画像、音声、動画を同時に理解する必要がある Agent。
企業内の文書インテリジェンスとナレッジベースQA。
スクリーンショットや Web インターフェースに基づくコンピューター操作。
会議、カスタマーサポート、教学コンテンツのマルチモーダル分析。
動画理解、ワークフローの振り返り、時系列判断。
オープンライセンスとプライベートデプロイを必要とするチーム。

すべての一般ユーザーに向いているとは限らない。ローカルチャット、コード補完、簡単なQAだけなら、単一モーダルの言語モデルのほうが軽く、速く、省リソースである可能性が高い。 Nemotron 3 Nano Omni の価値は、主に複雑な入力とマルチモーダルな Agent ワークフローにある。

AI Agent にとって何を意味するのか

AI Agent が本当に仕事の現場に入っていくには、文字を書けるだけでは足りない。インターフェースを理解し、音声を聞き取り、文書を読み、動画内の変化を把握し、それらを次の行動へ変換する必要がある。

Nemotron 3 Nano Omni の意味はそこにある。単にモデルのパラメータを大きくしたのではなく、Agent が直面する複数種類の入力を一つの推論モデルに統合している。これにより、開発者はチャットウィンドウ中心のアプリではなく、現実のタスクに向いたエージェントを作りやすくなる。

この角度から見ると、NVIDIA がこのモデルを発表したポイントは「また一つマルチモーダルモデルが出た」ということだけではない。オープンモデル、GPU 推論、企業向け Agent、プライベートデプロイを引き続き接続しようとしている点にある。今後本当に注目すべきなのは、具体的な Agent フレームワーク、企業ワークフロー、ローカルデプロイの中でどのような実力を見せるかだ。

参考ソース：

NVIDIA 技術ブログ：NVIDIA Nemotron 3 Nano Omni