AI Video on KnightLi Blog

miHoYo LPM 1.0 explicado: cómo un modelo de video con AI puede transformar los NPC de juegos

Fri, 08 May 2026 22:27:10 +0800

LPM 1.0 se puede confundir fácilmente con otro modelo de generación de video con AI. Si se juzga solo por sus demos, quizá no parezca tan espectacular como algunos sistemas de texto a video. Pero si se mira el objetivo del paper, no intenta principalmente generar un clip atractivo. Intenta hacer que un personaje digital parezca presente durante la interacción.

Esa es la diferencia principal entre LPM 1.0 y los modelos de video comunes. Un modelo de video típico se centra en calidad visual, continuidad de cámara y fidelidad al prompt. LPM 1.0 se centra en la actuación del personaje: sincronía de labios, ritmo y expresión al hablar; asentimientos, mirada, pausas y microexpresiones al escuchar; e identidad estable durante interacciones largas.

De generar video a generar actuación

LPM significa Large Performance Model. El nombre importa porque desplaza el límite de la tarea desde “video” hacia “actuación”.

En una conversación real, que alguien parezca natural no depende solo de lo que dice. Escuchar también forma parte de la comunicación: cuándo asiente, hacia dónde mira y cómo cambia sutilmente la expresión influye en si creemos que el personaje está vivo.

Muchos sistemas de humanos digitales siguen pegando texto, voz y movimiento de labios sobre una imagen de personaje. El personaje puede hablar, pero no necesariamente escuchar. Puede producir líneas, pero no siempre reaccionar de forma continua al último segundo de entrada. LPM 1.0 busca convertir esa reproducción pasiva en interacción en tiempo real.

Los tres problemas difíciles

El paper de LPM 1.0 plantea un trilema en la actuación de personajes con AI: expresividad, inferencia en tiempo real y estabilidad de identidad a largo plazo. Un sistema puede verse detallado pero ser lento, responder rápido pero sentirse rígido, o mantenerse estable por poco tiempo y luego desviarse. Conseguir las tres cosas al mismo tiempo es mucho más difícil.

Para abordarlo, LPM 1.0 usa condiciones de personaje más ricas. En vez de dar al modelo una sola imagen de referencia, introduce referencias de identidad de varias granularidades: apariencia global, cuerpo desde múltiples vistas y ejemplos de expresiones faciales. El objetivo es reducir detalles inventados como perfil, dientes, textura de expresión o proporciones corporales, y evitar deformaciones en generaciones largas.

El paper también separa el comportamiento de hablar y escuchar. El audio de habla impulsa principalmente sincronía labial, velocidad, movimiento de cabeza y ritmo corporal. El audio de escucha activa mirada, asentimientos, cambios de postura y microexpresiones. Si ambas señales se mezclan en un único flujo de control, el modelo puede aprender comportamientos erróneos. LPM 1.0 modela speaking y listening por separado y luego los conecta en un sistema online de interacción.

Base LPM y Online LPM

Según el paper público, LPM 1.0 se apoya en un Diffusion Transformer de 17B parámetros. Base LPM aprende videos de actuación de personaje de alta calidad, controlables y con identidad estable. Online LPM es un generador en streaming destilado, diseñado para interacción de baja latencia y larga duración.

Esta división es importante. Un modelo offline puede priorizar calidad, pero un sistema interactivo no puede hacer esperar al usuario. Cuando el usuario empieza a hablar, el personaje debería empezar a “escuchar” de inmediato. Cuando el personaje habla, labios, expresión y movimiento corporal deben seguir al instante. El valor de Online LPM está en comprimir la generación de video compleja hacia una forma cercana a la interacción en tiempo real.

Por eso LPM 1.0 no es solo una herramienta de clips cortos para creadores. Se parece más a un motor visual para agentes conversacionales, streamers virtuales y NPC de juegos: el modelo de lenguaje entiende y genera contenido, el modelo de voz aporta sonido, y LPM hace que el personaje en pantalla actúe de forma creíble.

Qué significa para los juegos

En juegos, LPM 1.0 apunta menos a cinemáticas más bonitas y más a la próxima generación de personajes interactivos.

Los NPC tradicionales dependen de guiones escritos, animaciones fijas y ramificaciones limitadas. El jugador puede hablar con ellos, pero la respuesta suele estar diseñada de antemano. En la era de AI, el objetivo va más lejos: dentro de un mismo mundo, distintos jugadores pueden vivir rutas narrativas distintas, y un mismo personaje puede responder con acciones, emociones y diálogo ajustados al contexto de cada jugador.

Eso es lo que una experiencia de juego realmente personalizada necesita por debajo. Los modelos de lenguaje pueden generar líneas y los sistemas de comportamiento pueden decidir objetivos, pero si el personaje en pantalla sigue pareciendo rígido, al jugador le costará creer que lo entiende. LPM 1.0 intenta cubrir precisamente esa capa visual y de actuación.

No es un producto mágico terminado

LPM 1.0 debe entenderse hoy como una dirección técnica, no como un producto comercial inmediatamente escalable. El paper y las demos muestran una posibilidad: la generación de video de personajes en tiempo real, full-duplex y con identidad estable se acerca a ser utilizable. Pero para entrar ampliamente en juegos aún faltan resolver costes, latencia, despliegue en el borde, seguridad de contenido, derechos de personaje, escenas multijugador e integración con motores.

Una ruta más realista puede empezar por streamers virtuales, acompañantes AI, interacción narrativa, soporte con personajes y tutores educativos. A medida que baje el coste y mejore la latencia, la tecnología podrá entrar en sistemas de juego más complejos.

Resumen

El valor de LPM 1.0 no está en si puede generar el video más impresionante. Está en empujar el objetivo del video con AI desde “generar imagen” hacia “presencia del personaje”.

Si los juegos del futuro se vuelven más personalizados, dinámicos y dependientes de personajes con AI, lenguaje, voz, movimiento, expresión y consistencia de identidad deberán diseñarse juntos. LPM 1.0 ofrece una ruta: personajes digitales que no solo hablan, sino que escuchan, reaccionan y siguen siendo reconociblemente ellos mismos durante interacciones largas.

Referencias:

Pixelle-Video: un motor open source de IA para generar videos cortos a partir de un tema

Thu, 07 May 2026 20:25:17 +0800

Pixelle-Video es un motor open source totalmente automatizado para generar videos cortos, creado por AIDC-AI. Su objetivo es directo: el usuario introduce un tema, y el sistema escribe automaticamente el guion, genera imagenes o videos con IA, crea narracion de voz, anade musica de fondo y renderiza el video final.

Este tipo de herramienta es util para creacion masiva de videos cortos, explicadores de conocimiento, contenido talking-head, resumenes de novelas, videos de historia y cultura, y experimentos de self-media. No es un unico modelo text-to-video. Es una linea de produccion que conecta varias capacidades de IA.

Que automatiza

El flujo por defecto de Pixelle-Video puede resumirse asi:

introducir un tema o un guion fijo;
usar un LLM para generar la narracion;
planificar escenas y generar imagenes o clips de video;
usar TTS para crear la narracion de voz;
anadir musica de fondo;
aplicar una plantilla de video y renderizar el resultado final.

El README describe el flujo como “generacion de guion -> planificacion de imagenes -> procesamiento fotograma a fotograma -> composicion de video”. El diseno modular es claro: cada paso puede reemplazarse, ajustarse o conectarse a un flujo personalizado.

Funciones principales

El proyecto cubre un conjunto bastante completo de capacidades:

escritura de guion con IA: genera automaticamente narracion a partir de un tema;
generacion de imagenes con IA: crea ilustraciones para cada linea o escena;
generacion de video con IA: conecta con modelos de generacion de video como WAN 2.1;
voz TTS: soporta Edge-TTS, Index-TTS y otras opciones;
musica de fondo: usa BGM integrada o musica personalizada;
multiples relaciones de aspecto: soporta formatos verticales, horizontales y otros tamanos de video;
multiples modelos: conecta con GPT, Qwen, DeepSeek, Ollama y mas;
flujos ComfyUI: usa workflows integrados o reemplaza pasos de imagen, TTS y generacion de video.

Las actualizaciones recientes tambien mencionan motion transfer, videos talking-head con humano digital, pipelines image-to-video, voces TTS multilingues, soporte RunningHub y un paquete todo-en-uno para Windows. El proyecto claramente esta avanzando mas alla de un simple script hacia una herramienta de creacion mas completa.

Instalacion y arranque

Los usuarios de Windows pueden mirar primero el paquete oficial todo-en-uno. Esta disenado para reducir friccion de configuracion: no hace falta instalar manualmente Python, uv ni ffmpeg. Despues de extraer el paquete, ejecuta start.bat, abre la interfaz web y configura las APIs necesarias y el servicio de generacion de imagenes.

Para instalar desde codigo fuente, el README da este flujo basico:

1
2
3

git clone https://github.com/AIDC-AI/Pixelle-Video.git
cd Pixelle-Video
uv run streamlit run web/app.py

La ruta desde codigo fuente es adecuada para usuarios de macOS y Linux, y para cualquiera que quiera modificar plantillas, workflows o configuracion de servicios. Los requisitos principales son uv y ffmpeg.

Prioridades de configuracion

En el primer uso, lo importante no es pulsar “generate” inmediatamente. Lo importante es conectar bien las capacidades externas.

La configuracion del LLM determina la calidad del guion. Puedes elegir modelos como Qwen, GPT, DeepSeek u Ollama, y luego rellenar API Key, Base URL y nombre del modelo. Si quieres minimizar costes, Ollama local es una opcion. Si quieres resultados mas estables, un modelo cloud suele ser mas sencillo.

La configuracion de generacion de imagen y video determina la calidad visual. El proyecto soporta ComfyUI local y RunningHub. Los usuarios que entienden ComfyUI pueden colocar sus propios workflows bajo workflows/ para reemplazar el pipeline por defecto de imagen, video o TTS.

La configuracion de plantillas determina la forma visual final. El proyecto organiza plantillas de video bajo templates/, con reglas de nombres para plantillas estaticas, plantillas de imagen y plantillas de video. Para creadores, esto es mas practico que generar solo assets crudos, porque la salida es un video que puede previsualizarse y descargarse directamente.

Para quien es

Pixelle-Video es especialmente adecuado para tres grupos:

Creadores de videos cortos que quieren convertir ideas en borradores de video rapidamente.
Usuarios de herramientas AIGC que quieren conectar LLMs, ComfyUI, TTS y composicion de video.
Desarrolladores y usuarios de automatizacion que quieren modificar plantillas, workflows o integrar sus propios materiales y modelos.

Si solo quieres hacer un unico video premium muy pulido, puede que no reemplace la edicion manual. Pero si quieres generar muchos explicadores, videos talking-head o videos de ciencia y educacion con una estructura consistente, su enfoque de pipeline tiene valor.

Puntos a tener en cuenta

El techo de este tipo de herramienta lo determinan varios eslabones de la cadena. Un modelo de guion debil produce contenido vacio; un modelo de imagen debil da visuales dispersos; un TTS poco natural hace que el video se sienta tosco; y una plantilla pobre debilita el resultado final.

Por eso conviene empezar con un escenario fijo, por ejemplo un “explicador cientifico vertical de 60 segundos”. Fija primero el LLM, el estilo visual, la voz TTS, el BGM y la plantilla, y despues amplia a mas temas.

El proyecto soporta una configuracion local gratuita, pero los setups locales suelen requerir GPU, configuracion de ComfyUI y archivos de modelos. Los usuarios sin entorno local de inferencia pueden reducir la dificultad usando un LLM cloud mas RunningHub, sin perder de vista el coste de uso.

Lectura breve

Pixelle-Video es interesante no solo porque pueda “generar un video desde una frase”. Su valor real es que divide la produccion de videos cortos en modulos reemplazables: guion, visuales, voz, musica, plantillas y render. Para usuarios comunes, es una herramienta de video con IA de baja barrera. Para desarrolladores, se acerca mas a un framework hackeable de automatizacion de videos cortos.

Si estas estudiando pipelines de videos cortos con IA, o quieres conectar ComfyUI, TTS, LLMs y renderizado con plantillas en un producto usable, Pixelle-Video merece probarse y diseccionarse.