miHoYo LPM 1.0 解説：AI 動画モデルはゲーム NPC をどう変えるのか

LPM 1.0 は、また一つの AI 動画生成モデルだと誤解されやすい。デモだけを見ると、一部の text-to-video 製品のような大きなカメラ演出や強烈な視覚インパクトを狙っているわけではない。しかし論文の目的に戻すと、本当に解こうとしているのは「見栄えのよい動画を生成すること」ではなく、「インタラクションの中でデジタルキャラクターに存在感を持たせること」だとわかる。

ここが LPM 1.0 と一般的な動画モデルの最大の違いだ。一般的な動画モデルは画質、カメラの連続性、プロンプト再現に注目する。LPM 1.0 が注目するのはキャラクターの演技である。話しているときは口形、リズム、表情が同期し、聞いているときはうなずき、視線、間、微表情があり、長時間の対話でも同じキャラクターとして安定する必要がある。

動画生成から演技生成へ

LPM は Large Performance Model、つまり大型パフォーマンスモデルを意味する。この名前は重要だ。タスクの境界を「動画」から「演技」へ移しているからである。

実際の会話で相手が自然に感じられるかどうかは、何を言うかだけでは決まらない。多くの場合、聞くこと自体がコミュニケーションになる。適切なタイミングでうなずくか、視線が文脈に合っているか、表情が感情に合わせて少し変化するかが、「このキャラクターは生きている」と感じられるかを左右する。

既存の多くのデジタルヒューマンは、テキスト、音声、口形を人物の見た目に貼り付けているに近い。キャラクターは話せるが、必ずしも聞けるわけではない。台詞を出せても、直前の入力に連続的に反応できるとは限らない。LPM 1.0 の目的は、この受動的な再生をリアルタイムの対話へ変えることだ。

論文が扱う三つの難題

LPM 1.0 の論文は、AI キャラクターパフォーマンスの問題を三角関係として整理している。表現力、リアルタイム性、長時間のアイデンティティ安定性である。細かい表現ができても遅い、応答は速いが動きが硬い、短時間は安定しても長く続くと見た目がずれる。三つを同時に満たすのは難しい。

この問題に対し、LPM 1.0 はより複雑なキャラクター条件入力を使う。モデルに一枚の参照画像だけを与えるのではなく、全体外観、複数視点の身体、複数表情の顔参照を含む多粒度の identity reference を導入する。目的は、横顔、歯、表情の質感、身体比率などをモデルが勝手に補完してしまうのを減らし、長時間生成でも変形しにくくすることだ。

論文では、話す行動と聞く行動も分けている。話す音声は主に口形、話速、頭部や身体のリズムを駆動する。聞く音声は視線、うなずき、姿勢変化、微表情を引き起こす。二つの信号を一つの制御に混ぜると、モデルは誤った対応を学びやすい。LPM 1.0 は speaking と listening を別々にモデル化し、オンラインシステムで一つの対話フローに接続する。

Base LPM と Online LPM

公開論文によると、LPM 1.0 の基盤は 17B パラメータの Diffusion Transformer である。Base LPM は高品質で制御可能、かつ identity-consistent なキャラクター演技動画を学習する。Online LPM は蒸留されたストリーミング生成器で、低遅延かつ長時間の対話を支える。

この分割は重要だ。オフラインモデルは品質を追求できるが、対話シーンではユーザーを長く待たせられない。ユーザーが話し始めたら、キャラクターはすぐに「聞き」始める必要がある。キャラクターが話し始めたら、口形、表情、身体動作も即座についてこなければならない。Online LPM の価値は、複雑な動画生成をリアルタイム対話に近い形へ圧縮する点にある。

したがって LPM 1.0 は、単にクリエイター向けの短尺動画素材ツールではない。対話エージェント、バーチャル配信者、ゲーム NPC のための視覚エンジンに近い。言語モデルが内容を理解して生成し、音声モデルが声を担当し、LPM が画面内のキャラクターを信頼できる形で演じさせる。

ゲームにとっての意味

ゲーム業界に置くと、LPM 1.0 が示すのは、より美しいカットシーンではなく、次世代のインタラクティブキャラクターだ。

従来のゲーム NPC は、事前に書かれたスクリプト、固定アニメーション、限られた分岐に依存している。プレイヤーは会話できるが、反応はほとんど設計済みである。AI 時代の目標はさらに先にある。同じ世界観の中でプレイヤーごとに異なる物語が生まれ、同じキャラクターでも相手に合わせた動作、感情、応答を返せることだ。

これこそ、個別化されたゲーム体験に必要な基盤である。言語モデルは台詞を生成でき、行動システムは目標を決められる。しかし画面上のキャラクターが硬いままでは、プレイヤーはそれが自分を理解していると信じにくい。LPM 1.0 が補おうとしているのは、この視覚と演技の層である。

万能の完成品として見ない

もちろん、LPM 1.0 は今のところ、すぐ大規模商用化できる完成品というより技術ルートとして理解するほうがよい。論文とデモは、リアルタイム、フルデュプレックス、identity-stable なキャラクター動画生成が実用に近づいていることを示している。ただしゲームに本格導入するには、コスト、遅延、端末側展開、コンテンツ安全性、キャラクター権利、マルチプレイヤー場面、エンジン統合などの問題が残る。

現実的な導入は、最初からすべての NPC を置き換えることではないだろう。まずはバーチャル配信者、AI コンパニオン、物語対話、キャラクター型サポート、教育コーチングのような単一キャラクター場面に入る可能性が高い。モデルコストが下がり、遅延がさらに減れば、より複雑なゲームシステムへ進める。

まとめ

LPM 1.0 の価値は、最も派手な動画を生成できるかではない。AI 動画の目標を「画面生成」から「キャラクターの存在感」へ押し出している点にある。

将来のゲームがより個別化され、より動的になり、AI キャラクターに依存するなら、言語、音声、動作、表情、アイデンティティの一貫性は一緒に設計されなければならない。LPM 1.0 はその一つの道筋を示している。デジタルキャラクターが話すだけでなく、聞き、反応し、長い対話でも同じ存在であり続けるための道筋である。

参考リンク：