AI影片 on KnightLi的博客

米哈遊 LPM 1.0 解讀：AI 影片模型如何重塑遊戲 NPC

Fri, 08 May 2026 22:27:10 +0800

LPM 1.0 最容易被誤解成又一個 AI 影片生成模型。只看展示，它未必像一些文生影片產品那樣追求宏大的鏡頭調度和誇張的視覺衝擊；但如果把它放回論文裡的目標，就會發現它真正想解決的不是「生成一段好看的影片」，而是「讓一個數位角色在互動中像是在場」。

這也是 LPM 1.0 和普通影片模型最大的區別。普通影片模型更關注畫面品質、鏡頭連續性和文字指令還原；LPM 1.0 關注的是角色表演：說話時口型、節奏、表情要同步，傾聽時也要有點頭、視線、停頓和微表情，長時間互動中還要保持角色身份穩定。

從生成影片到生成表演

LPM 是 Large Performance Model，也就是大型表演模型。這個命名很重要，因為它把任務邊界從「影片」改成了「表演」。

在真實對話裡，一個人是否顯得自然，並不只取決於他說了什麼。很多時候，傾聽本身就構成了交流：對方是否在合適的時候點頭，眼神是否跟得上語境，表情是否隨著情緒輕微變化，都會影響我們對「這個角色是否活著」的判斷。

現有很多數位人方案，本質上仍是在把文字、語音和口型拼接到一個人物形象上。角色會說話，但不一定會聽；能輸出台詞，但不一定能根據上一秒的輸入做出連續反應。LPM 1.0 的目標，是把這種被動播報改造成即時互動。

論文裡的三個難點

LPM 1.0 論文把問題概括為 AI 角色表演裡的三角矛盾：表現力、即時性和長時身份一致性。一個系統可以畫面細膩但很慢，也可以回應很快但動作僵硬，或者短時間穩定但長時間後身份漂移。要同時做到三者，難度會明顯上升。

為了解決這個問題，LPM 1.0 採用了更複雜的角色條件輸入。它不是只給模型一張參考圖，而是引入多粒度身份參考，包括整體外觀、多視角身體和多表情面部參考。這樣做的目的，是減少模型對側臉、牙齒、表情紋理、身體比例等細節的「腦補」，讓角色在長時間生成中不容易變形。

論文中還區分了說話和傾聽兩類行為。說話音訊主要驅動口型、語速、頭部和身體節奏；傾聽音訊則更多觸發視線、點頭、姿態變化和微表情。如果把兩類訊號混在一起，模型很容易學亂。LPM 1.0 的思路是把 speaking 和 listening 分別建模，再在線上系統裡把它們接到同一套互動流程裡。

Base LPM 與 Online LPM

從公開論文看，LPM 1.0 的底座是一個 17B 參數的 Diffusion Transformer。Base LPM 負責學習高品質、可控、身份穩定的角色表演影片；Online LPM 則是經過蒸餾後的串流生成器，用來支撐低延遲、長時互動。

這個拆分很關鍵。離線模型可以追求品質，但互動場景不能讓使用者等很久。使用者一開口，角色就應該開始「聽」；角色開始說話時，口型、表情和身體動作也要立刻跟上。Online LPM 的價值，就在於把複雜的影片生成壓縮到更接近即時互動的形態。

因此，LPM 1.0 不是單純給創作者做短影片素材的工具。它更像是對話智能體、虛擬直播角色和遊戲 NPC 的視覺引擎：語言模型負責理解和生成內容，語音模型負責聲音，LPM 負責讓螢幕裡的角色以可信的方式「表演出來」。

對遊戲的意義

如果把它放進遊戲產業，LPM 1.0 指向的並不是更漂亮的過場動畫，而是下一代可互動角色。

傳統遊戲裡的 NPC，大多依賴預寫腳本、固定動畫和有限分支。玩家可以和它對話，但它對玩家的反饋通常是被設計好的。AI 時代的目標會更進一步：同一個世界觀下，不同玩家可能獲得不同故事線；同一個角色面對不同玩家，也能產生更貼合語境的動作、情緒和回應。

這就是「千人千面」遊戲體驗真正需要的底層能力。語言模型可以生成台詞，行為系統可以決定目標，但如果角色在螢幕上的表現仍然僵硬，玩家很難相信它是一個正在理解自己的對象。LPM 1.0 試圖補上的，正是這塊視覺和表演層。

不要把它看成萬能成品

當然，LPM 1.0 目前更適合作為技術路線來理解，而不是馬上等同於可大規模商用的完整產品。論文和展示證明了一種可能性：即時、全雙工、身份穩定的角色影片生成正在接近可用狀態。但真正進入遊戲，還要解決成本、延遲、端側部署、內容安全、角色版權、多人場景和引擎整合等問題。

更現實的落地路徑，可能不是一上來替換所有 NPC，而是先進入虛擬主播、AI 陪伴、劇情互動、角色客服、教育陪練等單人角色場景。等模型成本下降、延遲進一步降低，再逐步進入更複雜的遊戲系統。

總結

LPM 1.0 的價值，不在於它能不能生成最驚豔的一段影片，而在於它把 AI 影片的目標從「畫面生成」推向了「角色存在感」。

如果未來的遊戲真的走向更個性化、更動態、更依賴 AI 角色的形態，那麼語言、語音、動作、表情和身份一致性必須被合在一起考慮。LPM 1.0 提供的正是這樣一條路線：讓數位角色不只是會說話，而是能傾聽、能反應，並在長時間互動中保持像同一個人。

參考連結：

Pixelle-Video：一句主題生成短影片的開源 AI 引擎

Thu, 07 May 2026 20:25:17 +0800

Pixelle-Video 是 AIDC-AI 開源的全自動短影片生成引擎。它的目標很直白：使用者輸入一個主題，系統自動完成影片文案、AI 配圖或影片、語音解說、背景音樂和最終合成。

這類工具適合短影片批量創作、知識科普、口播內容、小說解說、歷史文化類影片和自媒體素材實驗。它不是單一的「文生影片模型」，而是把多種 AI 能力接成一條生產流水線。

它能自動做什麼

Pixelle-Video 的預設流程可以概括為：

輸入主題或固定文案；
由大型語言模型生成解說詞；
根據分鏡規劃生成配圖或影片素材；
使用 TTS 生成語音解說；
添加背景音樂；
套用影片模板並合成最終成片。

README 中給出的流程是「文案生成 → 配圖規劃 → 逐幀處理 → 影片合成」。這種模組化設計的好處是清晰：每一步都可以替換模型、調整參數或改用自訂工作流。

功能亮點

專案支援的能力相當完整：

AI 智慧文案：根據主題自動生成影片解說詞；
AI 配圖：為每句話或每個分鏡生成插圖；
AI 影片生成：支援接入 WAN 2.1 等影片生成模型；
TTS 語音：支援 Edge-TTS、Index-TTS 等方案；
背景音樂：可以使用內建 BGM，也可以放入自訂音樂；
多尺寸輸出：支援直式、橫式等不同影片比例；
多模型選擇：可接入 GPT、通義千問、DeepSeek、Ollama 等；
ComfyUI 工作流：可以使用預置工作流，也可以替換生圖、TTS、影片生成等環節。

最近更新裡還提到動作遷移、數位人口播、圖生影片、多語言 TTS 音色、RunningHub 支援、Windows 一鍵整合包等內容。這說明專案已經不只是一個腳本，而是在往完整創作工具方向發展。

安裝和啟動方式

Windows 使用者可以優先看官方提供的一鍵整合包。它的定位是降低安裝門檻，不需要手動準備 Python、uv 或 ffmpeg，解壓後執行 start.bat，再在瀏覽器裡打開 Web 介面配置 API 和圖像生成服務。

如果從源碼啟動，README 給出的基本方式是：

1
2
3

git clone https://github.com/AIDC-AI/Pixelle-Video.git
cd Pixelle-Video
uv run streamlit run web/app.py

源碼方式適合 macOS、Linux 使用者，也適合需要修改模板、工作流或服務配置的人。前置依賴主要是 uv 和 ffmpeg。

配置重點

第一次使用時，關鍵不是先點「生成」，而是把幾個外部能力接好。

LLM 配置決定文案品質。你可以選擇通義千問、GPT、DeepSeek、Ollama 等模型，並填寫對應的 API Key、Base URL 和模型名。如果想盡量降低成本，本地 Ollama 是一個方向；如果追求穩定效果，雲端模型會更省心。

圖像和影片生成配置決定畫面品質。專案支援本地 ComfyUI，也支援 RunningHub。懂 ComfyUI 的使用者可以把自己的工作流放進 workflows/ 目錄，用來替換預設生圖、影片或 TTS 流程。

模板配置決定最終成片的視覺形態。專案用 templates/ 目錄組織影片模板，靜態模板、圖片模板和影片模板按命名規則區分。對內容創作者來說，這比只生成一段素材更實用，因為最終交付物是可以直接預覽和下載的影片。

適合什麼人

Pixelle-Video 比較適合三類使用者：

短影片創作者：想快速把選題變成可發布的草稿影片；
AIGC 工具玩家：想把 LLM、ComfyUI、TTS 和影片合成串起來；
開發者和自動化使用者：想基於開源專案改模板、改工作流，甚至接入自己的素材和模型。

如果你只想偶爾做一支高品質精品影片，它未必能直接替代人工剪輯；但如果你想批量生成結構一致的解釋類、口播類、科普類內容，它的流水線思路很有價值。

需要注意的地方

這類工具的上限由多個環節共同決定。文案模型不好，內容會空；配圖模型不好，畫面會散；TTS 不自然，影片會顯得粗糙；模板不合適，最終成片也會缺少辨識度。

所以使用 Pixelle-Video 時，建議先從一個固定場景開始調試，比如「60 秒知識科普直式影片」。把 LLM、畫面風格、TTS 音色、BGM 和模板固定下來，再逐步擴大到其他主題。

另外，專案雖然支援本地免費方案，但本地方案通常需要顯卡、ComfyUI 配置和模型檔案。沒有本地推理環境的使用者，可以用雲端 LLM 加 RunningHub 的方式降低部署難度，但要留意呼叫成本。

簡短判斷

Pixelle-Video 的看點不只是「輸入一句話生成影片」，而是它把短影片生產拆成可替換的模組：文案、畫面、語音、音樂、模板和合成。對普通使用者，它是一個低門檻 AI 影片工具；對開發者，它更像一個可改造的短影片自動化框架。

如果你正在研究 AI 短影片流水線，或者想把 ComfyUI、TTS、LLM 和模板合成串成一個可用產品，Pixelle-Video 值得試用和拆解。