AI视频 on KnightLi的博客

米哈游 LPM 1.0 解读：AI 视频模型如何重塑游戏 NPC

Fri, 08 May 2026 22:27:10 +0800

LPM 1.0 最容易被误解成又一个 AI 视频生成模型。只看演示，它未必像一些文生视频产品那样追求宏大的镜头调度和夸张的视觉冲击；但如果把它放回论文里的目标，就会发现它真正想解决的不是“生成一段好看的视频”，而是“让一个数字角色在互动中像是在场”。

这也是 LPM 1.0 和普通视频模型最大的区别。普通视频模型更关注画面质量、镜头连续性和文本指令还原；LPM 1.0 关注的是角色表演：说话时口型、节奏、表情要同步，倾听时也要有点头、视线、停顿和微表情，长时间互动中还要保持角色身份稳定。

从生成视频到生成表演

LPM 是 Large Performance Model，也就是大型表演模型。这个命名很重要，因为它把任务边界从“视频”改成了“表演”。

在真实对话里，一个人是否显得自然，并不只取决于他说了什么。很多时候，倾听本身就构成了交流：对方是否在合适的时候点头，眼神是否跟得上语境，表情是否随着情绪轻微变化，都会影响我们对“这个角色是否活着”的判断。

现有很多数字人方案，本质上仍是在把文本、语音和口型拼接到一个人物形象上。角色会说话，但不一定会听；能输出台词，但不一定能根据上一秒的输入做出连续反应。LPM 1.0 的目标，是把这种被动播报改造成实时互动。

论文里的三个难点

LPM 1.0 论文把问题概括为 AI 角色表演里的三角矛盾：表现力、实时性和长时身份一致性。一个系统可以画面细腻但很慢，也可以响应很快但动作僵硬，或者短时间稳定但长时间后身份漂移。要同时做到三者，难度会明显上升。

为了解这个问题，LPM 1.0 采用了更复杂的角色条件输入。它不是只给模型一张参考图，而是引入多粒度身份参考，包括整体外观、多视角身体和多表情面部参考。这样做的目的，是减少模型对侧脸、牙齿、表情纹理、身体比例等细节的“脑补”，让角色在长时间生成中不容易变形。

论文中还区分了说话和倾听两类行为。说话音频主要驱动口型、语速、头部和身体节奏；倾听音频则更多触发视线、点头、姿态变化和微表情。如果把两类信号混在一起，模型很容易学乱。LPM 1.0 的思路是把 speaking 和 listening 分别建模，再在在线系统里把它们接到同一套互动流程里。

Base LPM 与 Online LPM

从公开论文看，LPM 1.0 的底座是一个 17B 参数的 Diffusion Transformer。Base LPM 负责学习高质量、可控、身份稳定的角色表演视频；Online LPM 则是经过蒸馏后的流式生成器，用来支撑低延迟、长时互动。

这个拆分很关键。离线模型可以追求质量，但互动场景不能让用户等很久。用户一开口，角色就应该开始“听”；角色开始说话时，口型、表情和身体动作也要立刻跟上。Online LPM 的价值，就在于把复杂的视频生成压缩到更接近实时交互的形态。

因此，LPM 1.0 不是单纯给创作者做短视频素材的工具。它更像是对话智能体、虚拟直播角色和游戏 NPC 的视觉引擎：语言模型负责理解和生成内容，语音模型负责声音，LPM 负责让屏幕里的角色以可信的方式“表演出来”。

对游戏的意义

如果把它放进游戏行业，LPM 1.0 指向的并不是更漂亮的过场动画，而是下一代可互动角色。

传统游戏里的 NPC，大多依赖预写脚本、固定动画和有限分支。玩家可以和它对话，但它对玩家的反馈通常是被设计好的。AI 时代的目标会更进一步：同一个世界观下，不同玩家可能获得不同故事线；同一个角色面对不同玩家，也能产生更贴合语境的动作、情绪和回应。

这就是“千人千面”游戏体验真正需要的底层能力。语言模型可以生成台词，行为系统可以决定目标，但如果角色在屏幕上的表现仍然僵硬，玩家很难相信它是一个正在理解自己的对象。LPM 1.0 试图补上的，正是这块视觉和表演层。

不要把它看成万能成品

当然，LPM 1.0 目前更适合作为技术路线来理解，而不是马上等同于可大规模商用的完整产品。论文和演示证明了一种可能性：实时、全双工、身份稳定的角色视频生成正在接近可用状态。但真正进入游戏，还要解决成本、延迟、端侧部署、内容安全、角色版权、多人场景和引擎集成等问题。

更现实的落地路径，可能不是一上来替换所有 NPC，而是先进入虚拟主播、AI 陪伴、剧情互动、角色客服、教育陪练等单人角色场景。等模型成本下降、延迟进一步降低，再逐步进入更复杂的游戏系统。

总结

LPM 1.0 的价值，不在于它能不能生成最惊艳的一段视频，而在于它把 AI 视频的目标从“画面生成”推向了“角色存在感”。

如果未来的游戏真的走向更个性化、更动态、更依赖 AI 角色的形态，那么语言、语音、动作、表情和身份一致性必须被合在一起考虑。LPM 1.0 提供的正是这样一条路线：让数字角色不只是会说话，而是能倾听、能反应，并在长时间互动中保持像同一个人。

参考链接：

Pixelle-Video：一句主题生成短视频的开源 AI 引擎

Thu, 07 May 2026 20:25:17 +0800

Pixelle-Video 是 AIDC-AI 开源的全自动短视频生成引擎。它的目标很直白：用户输入一个主题，系统自动完成视频文案、AI 配图或视频、语音解说、背景音乐和最终合成。

这类工具适合短视频批量创作、知识科普、口播内容、小说解说、历史文化类视频和自媒体素材实验。它不是单一的“文生视频模型”，而是把多种 AI 能力接成一条生产流水线。

它能自动做什么

Pixelle-Video 的默认流程可以概括为：

输入主题或固定文案；
由大语言模型生成解说词；
根据分镜规划生成配图或视频素材；
使用 TTS 生成语音解说；
添加背景音乐；
套用视频模板并合成最终成片。

README 中给出的流程是“文案生成 → 配图规划 → 逐帧处理 → 视频合成”。这种模块化设计的好处是清晰：每一步都可以替换模型、调整参数或改用自定义工作流。

功能亮点

项目支持的能力比较完整：

AI 智能文案：根据主题自动生成视频解说词；
AI 配图：为每句话或每个分镜生成插图；
AI 视频生成：支持接入 WAN 2.1 等视频生成模型；
TTS 语音：支持 Edge-TTS、Index-TTS 等方案；
背景音乐：可以使用内置 BGM，也可以放入自定义音乐；
多尺寸输出：支持竖屏、横屏等不同视频比例；
多模型选择：可接入 GPT、通义千问、DeepSeek、Ollama 等；
ComfyUI 工作流：可以使用预置工作流，也可以替换生图、TTS、视频生成等环节。

最近更新里还提到动作迁移、数字人口播、图生视频、多语言 TTS 音色、RunningHub 支持、Windows 一键整合包等内容。这说明项目已经不只是一个脚本，而是在往完整创作工具方向发展。

安装和启动方式

Windows 用户可以优先看官方提供的一键整合包。它的定位是降低安装门槛，不需要手动准备 Python、uv 或 ffmpeg，解压后运行 start.bat，再在浏览器里打开 Web 界面配置 API 和图像生成服务。

如果从源码启动，README 给出的基本方式是：

1
2
3

git clone https://github.com/AIDC-AI/Pixelle-Video.git
cd Pixelle-Video
uv run streamlit run web/app.py

源码方式适合 macOS、Linux 用户，也适合需要修改模板、工作流或服务配置的人。前置依赖主要是 uv 和 ffmpeg。

配置重点

第一次使用时，关键不是先点“生成”，而是把几个外部能力接好。

LLM 配置决定文案质量。你可以选择通义千问、GPT、DeepSeek、Ollama 等模型，并填写对应的 API Key、Base URL 和模型名。如果想尽量降低成本，本地 Ollama 是一个方向；如果追求稳定效果，云端模型会更省心。

图像和视频生成配置决定画面质量。项目支持本地 ComfyUI，也支持 RunningHub。懂 ComfyUI 的用户可以把自己的工作流放进 workflows/ 目录，用来替换默认生图、视频或 TTS 流程。

模板配置决定最终成片的视觉形态。项目用 templates/ 目录组织视频模板，静态模板、图片模板和视频模板按命名规则区分。对内容创作者来说，这比只生成一段素材更实用，因为最终交付物是可以直接预览和下载的视频。

适合什么人

Pixelle-Video 比较适合三类用户：

短视频创作者：想快速把选题变成可发布的草稿视频；
AIGC 工具玩家：想把 LLM、ComfyUI、TTS 和视频合成串起来；
开发者和自动化用户：想基于开源项目改模板、改工作流，甚至接入自己的素材和模型。

如果你只想偶尔做一个高质量精品视频，它未必能直接替代人工剪辑；但如果你想批量生成结构一致的解释类、口播类、科普类内容，它的流水线思路很有价值。

需要注意的地方

这类工具的上限由多个环节共同决定。文案模型不好，内容会空；配图模型不好，画面会散；TTS 不自然，视频会显得粗糙；模板不合适，最终成片也会缺少辨识度。

所以使用 Pixelle-Video 时，建议先从一个固定场景开始调试，比如“60 秒知识科普竖屏视频”。把 LLM、画面风格、TTS 音色、BGM 和模板固定下来，再逐步扩大到其他主题。

另外，项目虽然支持本地免费方案，但本地方案通常需要显卡、ComfyUI 配置和模型文件。没有本地推理环境的用户，可以用云端 LLM 加 RunningHub 的方式降低部署难度，但要留意调用成本。

简短判断

Pixelle-Video 的看点不只是“输入一句话生成视频”，而是它把短视频生产拆成可替换的模块：文案、画面、语音、音乐、模板和合成。对普通用户，它是一个低门槛 AI 视频工具；对开发者，它更像一个可改造的短视频自动化框架。

如果你正在研究 AI 短视频流水线，或者想把 ComfyUI、TTS、LLM 和模板合成串成一个可用产品，Pixelle-Video 值得试用和拆解。