Pixelle-Video: un motor open source de IA para generar videos cortos a partir de un tema

Pixelle-Video es un motor open source totalmente automatizado para generar videos cortos, creado por AIDC-AI. Su objetivo es directo: el usuario introduce un tema, y el sistema escribe automaticamente el guion, genera imagenes o videos con IA, crea narracion de voz, anade musica de fondo y renderiza el video final.

Este tipo de herramienta es util para creacion masiva de videos cortos, explicadores de conocimiento, contenido talking-head, resumenes de novelas, videos de historia y cultura, y experimentos de self-media. No es un unico modelo text-to-video. Es una linea de produccion que conecta varias capacidades de IA.

Que automatiza

El flujo por defecto de Pixelle-Video puede resumirse asi:

introducir un tema o un guion fijo;
usar un LLM para generar la narracion;
planificar escenas y generar imagenes o clips de video;
usar TTS para crear la narracion de voz;
anadir musica de fondo;
aplicar una plantilla de video y renderizar el resultado final.

El README describe el flujo como “generacion de guion -> planificacion de imagenes -> procesamiento fotograma a fotograma -> composicion de video”. El diseno modular es claro: cada paso puede reemplazarse, ajustarse o conectarse a un flujo personalizado.

Funciones principales

El proyecto cubre un conjunto bastante completo de capacidades:

escritura de guion con IA: genera automaticamente narracion a partir de un tema;
generacion de imagenes con IA: crea ilustraciones para cada linea o escena;
generacion de video con IA: conecta con modelos de generacion de video como WAN 2.1;
voz TTS: soporta Edge-TTS, Index-TTS y otras opciones;
musica de fondo: usa BGM integrada o musica personalizada;
multiples relaciones de aspecto: soporta formatos verticales, horizontales y otros tamanos de video;
multiples modelos: conecta con GPT, Qwen, DeepSeek, Ollama y mas;
flujos ComfyUI: usa workflows integrados o reemplaza pasos de imagen, TTS y generacion de video.

Las actualizaciones recientes tambien mencionan motion transfer, videos talking-head con humano digital, pipelines image-to-video, voces TTS multilingues, soporte RunningHub y un paquete todo-en-uno para Windows. El proyecto claramente esta avanzando mas alla de un simple script hacia una herramienta de creacion mas completa.

Instalacion y arranque

Los usuarios de Windows pueden mirar primero el paquete oficial todo-en-uno. Esta disenado para reducir friccion de configuracion: no hace falta instalar manualmente Python, uv ni ffmpeg. Despues de extraer el paquete, ejecuta start.bat, abre la interfaz web y configura las APIs necesarias y el servicio de generacion de imagenes.

Para instalar desde codigo fuente, el README da este flujo basico:

1
2
3


git clone https://github.com/AIDC-AI/Pixelle-Video.git
cd Pixelle-Video
uv run streamlit run web/app.py

La ruta desde codigo fuente es adecuada para usuarios de macOS y Linux, y para cualquiera que quiera modificar plantillas, workflows o configuracion de servicios. Los requisitos principales son uv y ffmpeg.

Prioridades de configuracion

En el primer uso, lo importante no es pulsar “generate” inmediatamente. Lo importante es conectar bien las capacidades externas.

La configuracion del LLM determina la calidad del guion. Puedes elegir modelos como Qwen, GPT, DeepSeek u Ollama, y luego rellenar API Key, Base URL y nombre del modelo. Si quieres minimizar costes, Ollama local es una opcion. Si quieres resultados mas estables, un modelo cloud suele ser mas sencillo.

La configuracion de generacion de imagen y video determina la calidad visual. El proyecto soporta ComfyUI local y RunningHub. Los usuarios que entienden ComfyUI pueden colocar sus propios workflows bajo workflows/ para reemplazar el pipeline por defecto de imagen, video o TTS.

La configuracion de plantillas determina la forma visual final. El proyecto organiza plantillas de video bajo templates/, con reglas de nombres para plantillas estaticas, plantillas de imagen y plantillas de video. Para creadores, esto es mas practico que generar solo assets crudos, porque la salida es un video que puede previsualizarse y descargarse directamente.

Para quien es

Pixelle-Video es especialmente adecuado para tres grupos:

Creadores de videos cortos que quieren convertir ideas en borradores de video rapidamente.
Usuarios de herramientas AIGC que quieren conectar LLMs, ComfyUI, TTS y composicion de video.
Desarrolladores y usuarios de automatizacion que quieren modificar plantillas, workflows o integrar sus propios materiales y modelos.

Si solo quieres hacer un unico video premium muy pulido, puede que no reemplace la edicion manual. Pero si quieres generar muchos explicadores, videos talking-head o videos de ciencia y educacion con una estructura consistente, su enfoque de pipeline tiene valor.

Puntos a tener en cuenta

El techo de este tipo de herramienta lo determinan varios eslabones de la cadena. Un modelo de guion debil produce contenido vacio; un modelo de imagen debil da visuales dispersos; un TTS poco natural hace que el video se sienta tosco; y una plantilla pobre debilita el resultado final.

Por eso conviene empezar con un escenario fijo, por ejemplo un “explicador cientifico vertical de 60 segundos”. Fija primero el LLM, el estilo visual, la voz TTS, el BGM y la plantilla, y despues amplia a mas temas.

El proyecto soporta una configuracion local gratuita, pero los setups locales suelen requerir GPU, configuracion de ComfyUI y archivos de modelos. Los usuarios sin entorno local de inferencia pueden reducir la dificultad usando un LLM cloud mas RunningHub, sin perder de vista el coste de uso.

Lectura breve

Pixelle-Video es interesante no solo porque pueda “generar un video desde una frase”. Su valor real es que divide la produccion de videos cortos en modulos reemplazables: guion, visuales, voz, musica, plantillas y render. Para usuarios comunes, es una herramienta de video con IA de baja barrera. Para desarrolladores, se acerca mas a un framework hackeable de automatizacion de videos cortos.

Si estas estudiando pipelines de videos cortos con IA, o quieres conectar ComfyUI, TTS, LLMs y renderizado con plantillas en un producto usable, Pixelle-Video merece probarse y diseccionarse.