Pixelle-Video:一句主题生成短视频的开源 AI 引擎

AIDC-AI 的 Pixelle-Video 是一个开源全自动短视频生成引擎,围绕文案、配图、视频、语音、背景音乐和模板合成,尝试把短视频制作压缩成一句主题输入。

Pixelle-Video 是 AIDC-AI 开源的全自动短视频生成引擎。它的目标很直白:用户输入一个主题,系统自动完成视频文案、AI 配图或视频、语音解说、背景音乐和最终合成。

这类工具适合短视频批量创作、知识科普、口播内容、小说解说、历史文化类视频和自媒体素材实验。它不是单一的“文生视频模型”,而是把多种 AI 能力接成一条生产流水线。

它能自动做什么

Pixelle-Video 的默认流程可以概括为:

  1. 输入主题或固定文案;
  2. 由大语言模型生成解说词;
  3. 根据分镜规划生成配图或视频素材;
  4. 使用 TTS 生成语音解说;
  5. 添加背景音乐;
  6. 套用视频模板并合成最终成片。

README 中给出的流程是“文案生成 → 配图规划 → 逐帧处理 → 视频合成”。这种模块化设计的好处是清晰:每一步都可以替换模型、调整参数或改用自定义工作流。

功能亮点

项目支持的能力比较完整:

  • AI 智能文案:根据主题自动生成视频解说词;
  • AI 配图:为每句话或每个分镜生成插图;
  • AI 视频生成:支持接入 WAN 2.1 等视频生成模型;
  • TTS 语音:支持 Edge-TTS、Index-TTS 等方案;
  • 背景音乐:可以使用内置 BGM,也可以放入自定义音乐;
  • 多尺寸输出:支持竖屏、横屏等不同视频比例;
  • 多模型选择:可接入 GPT、通义千问、DeepSeek、Ollama 等;
  • ComfyUI 工作流:可以使用预置工作流,也可以替换生图、TTS、视频生成等环节。

最近更新里还提到动作迁移、数字人口播、图生视频、多语言 TTS 音色、RunningHub 支持、Windows 一键整合包等内容。这说明项目已经不只是一个脚本,而是在往完整创作工具方向发展。

安装和启动方式

Windows 用户可以优先看官方提供的一键整合包。它的定位是降低安装门槛,不需要手动准备 Python、uv 或 ffmpeg,解压后运行 start.bat,再在浏览器里打开 Web 界面配置 API 和图像生成服务。

如果从源码启动,README 给出的基本方式是:

1
2
3
git clone https://github.com/AIDC-AI/Pixelle-Video.git
cd Pixelle-Video
uv run streamlit run web/app.py

源码方式适合 macOS、Linux 用户,也适合需要修改模板、工作流或服务配置的人。前置依赖主要是 uvffmpeg

配置重点

第一次使用时,关键不是先点“生成”,而是把几个外部能力接好。

LLM 配置决定文案质量。你可以选择通义千问、GPT、DeepSeek、Ollama 等模型,并填写对应的 API Key、Base URL 和模型名。如果想尽量降低成本,本地 Ollama 是一个方向;如果追求稳定效果,云端模型会更省心。

图像和视频生成配置决定画面质量。项目支持本地 ComfyUI,也支持 RunningHub。懂 ComfyUI 的用户可以把自己的工作流放进 workflows/ 目录,用来替换默认生图、视频或 TTS 流程。

模板配置决定最终成片的视觉形态。项目用 templates/ 目录组织视频模板,静态模板、图片模板和视频模板按命名规则区分。对内容创作者来说,这比只生成一段素材更实用,因为最终交付物是可以直接预览和下载的视频。

适合什么人

Pixelle-Video 比较适合三类用户:

  1. 短视频创作者:想快速把选题变成可发布的草稿视频;
  2. AIGC 工具玩家:想把 LLM、ComfyUI、TTS 和视频合成串起来;
  3. 开发者和自动化用户:想基于开源项目改模板、改工作流,甚至接入自己的素材和模型。

如果你只想偶尔做一个高质量精品视频,它未必能直接替代人工剪辑;但如果你想批量生成结构一致的解释类、口播类、科普类内容,它的流水线思路很有价值。

需要注意的地方

这类工具的上限由多个环节共同决定。文案模型不好,内容会空;配图模型不好,画面会散;TTS 不自然,视频会显得粗糙;模板不合适,最终成片也会缺少辨识度。

所以使用 Pixelle-Video 时,建议先从一个固定场景开始调试,比如“60 秒知识科普竖屏视频”。把 LLM、画面风格、TTS 音色、BGM 和模板固定下来,再逐步扩大到其他主题。

另外,项目虽然支持本地免费方案,但本地方案通常需要显卡、ComfyUI 配置和模型文件。没有本地推理环境的用户,可以用云端 LLM 加 RunningHub 的方式降低部署难度,但要留意调用成本。

简短判断

Pixelle-Video 的看点不只是“输入一句话生成视频”,而是它把短视频生产拆成可替换的模块:文案、画面、语音、音乐、模板和合成。对普通用户,它是一个低门槛 AI 视频工具;对开发者,它更像一个可改造的短视频自动化框架。

如果你正在研究 AI 短视频流水线,或者想把 ComfyUI、TTS、LLM 和模板合成串成一个可用产品,Pixelle-Video 值得试用和拆解。

记录并分享
使用 Hugo 构建
主题 StackJimmy 设计