<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>AIGC on KnightLi的博客</title>
        <link>https://www.knightli.com/tags/aigc/</link>
        <description>Recent content in AIGC on KnightLi的博客</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-cn</language>
        <lastBuildDate>Thu, 07 May 2026 20:25:17 +0800</lastBuildDate><atom:link href="https://www.knightli.com/tags/aigc/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>Pixelle-Video：一句主题生成短视频的开源 AI 引擎</title>
        <link>https://www.knightli.com/2026/05/07/pixelle-video-ai-short-video-engine/</link>
        <pubDate>Thu, 07 May 2026 20:25:17 +0800</pubDate>
        
        <guid>https://www.knightli.com/2026/05/07/pixelle-video-ai-short-video-engine/</guid>
        <description>&lt;p&gt;&lt;a class=&#34;link&#34; href=&#34;https://github.com/AIDC-AI/Pixelle-Video&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Pixelle-Video&lt;/a&gt; 是 AIDC-AI 开源的全自动短视频生成引擎。它的目标很直白：用户输入一个主题，系统自动完成视频文案、AI 配图或视频、语音解说、背景音乐和最终合成。&lt;/p&gt;
&lt;p&gt;这类工具适合短视频批量创作、知识科普、口播内容、小说解说、历史文化类视频和自媒体素材实验。它不是单一的“文生视频模型”，而是把多种 AI 能力接成一条生产流水线。&lt;/p&gt;
&lt;h2 id=&#34;它能自动做什么&#34;&gt;它能自动做什么
&lt;/h2&gt;&lt;p&gt;Pixelle-Video 的默认流程可以概括为：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;输入主题或固定文案；&lt;/li&gt;
&lt;li&gt;由大语言模型生成解说词；&lt;/li&gt;
&lt;li&gt;根据分镜规划生成配图或视频素材；&lt;/li&gt;
&lt;li&gt;使用 TTS 生成语音解说；&lt;/li&gt;
&lt;li&gt;添加背景音乐；&lt;/li&gt;
&lt;li&gt;套用视频模板并合成最终成片。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;README 中给出的流程是“文案生成 → 配图规划 → 逐帧处理 → 视频合成”。这种模块化设计的好处是清晰：每一步都可以替换模型、调整参数或改用自定义工作流。&lt;/p&gt;
&lt;h2 id=&#34;功能亮点&#34;&gt;功能亮点
&lt;/h2&gt;&lt;p&gt;项目支持的能力比较完整：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;AI 智能文案：根据主题自动生成视频解说词；&lt;/li&gt;
&lt;li&gt;AI 配图：为每句话或每个分镜生成插图；&lt;/li&gt;
&lt;li&gt;AI 视频生成：支持接入 WAN 2.1 等视频生成模型；&lt;/li&gt;
&lt;li&gt;TTS 语音：支持 Edge-TTS、Index-TTS 等方案；&lt;/li&gt;
&lt;li&gt;背景音乐：可以使用内置 BGM，也可以放入自定义音乐；&lt;/li&gt;
&lt;li&gt;多尺寸输出：支持竖屏、横屏等不同视频比例；&lt;/li&gt;
&lt;li&gt;多模型选择：可接入 GPT、通义千问、DeepSeek、Ollama 等；&lt;/li&gt;
&lt;li&gt;ComfyUI 工作流：可以使用预置工作流，也可以替换生图、TTS、视频生成等环节。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;最近更新里还提到动作迁移、数字人口播、图生视频、多语言 TTS 音色、RunningHub 支持、Windows 一键整合包等内容。这说明项目已经不只是一个脚本，而是在往完整创作工具方向发展。&lt;/p&gt;
&lt;h2 id=&#34;安装和启动方式&#34;&gt;安装和启动方式
&lt;/h2&gt;&lt;p&gt;Windows 用户可以优先看官方提供的一键整合包。它的定位是降低安装门槛，不需要手动准备 Python、uv 或 ffmpeg，解压后运行 &lt;code&gt;start.bat&lt;/code&gt;，再在浏览器里打开 Web 界面配置 API 和图像生成服务。&lt;/p&gt;
&lt;p&gt;如果从源码启动，README 给出的基本方式是：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;git clone https://github.com/AIDC-AI/Pixelle-Video.git
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;cd&lt;/span&gt; Pixelle-Video
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;uv run streamlit run web/app.py
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;源码方式适合 macOS、Linux 用户，也适合需要修改模板、工作流或服务配置的人。前置依赖主要是 &lt;code&gt;uv&lt;/code&gt; 和 &lt;code&gt;ffmpeg&lt;/code&gt;。&lt;/p&gt;
&lt;h2 id=&#34;配置重点&#34;&gt;配置重点
&lt;/h2&gt;&lt;p&gt;第一次使用时，关键不是先点“生成”，而是把几个外部能力接好。&lt;/p&gt;
&lt;p&gt;LLM 配置决定文案质量。你可以选择通义千问、GPT、DeepSeek、Ollama 等模型，并填写对应的 API Key、Base URL 和模型名。如果想尽量降低成本，本地 Ollama 是一个方向；如果追求稳定效果，云端模型会更省心。&lt;/p&gt;
&lt;p&gt;图像和视频生成配置决定画面质量。项目支持本地 ComfyUI，也支持 RunningHub。懂 ComfyUI 的用户可以把自己的工作流放进 &lt;code&gt;workflows/&lt;/code&gt; 目录，用来替换默认生图、视频或 TTS 流程。&lt;/p&gt;
&lt;p&gt;模板配置决定最终成片的视觉形态。项目用 &lt;code&gt;templates/&lt;/code&gt; 目录组织视频模板，静态模板、图片模板和视频模板按命名规则区分。对内容创作者来说，这比只生成一段素材更实用，因为最终交付物是可以直接预览和下载的视频。&lt;/p&gt;
&lt;h2 id=&#34;适合什么人&#34;&gt;适合什么人
&lt;/h2&gt;&lt;p&gt;Pixelle-Video 比较适合三类用户：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;短视频创作者&lt;/strong&gt;：想快速把选题变成可发布的草稿视频；&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;AIGC 工具玩家&lt;/strong&gt;：想把 LLM、ComfyUI、TTS 和视频合成串起来；&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;开发者和自动化用户&lt;/strong&gt;：想基于开源项目改模板、改工作流，甚至接入自己的素材和模型。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;如果你只想偶尔做一个高质量精品视频，它未必能直接替代人工剪辑；但如果你想批量生成结构一致的解释类、口播类、科普类内容，它的流水线思路很有价值。&lt;/p&gt;
&lt;h2 id=&#34;需要注意的地方&#34;&gt;需要注意的地方
&lt;/h2&gt;&lt;p&gt;这类工具的上限由多个环节共同决定。文案模型不好，内容会空；配图模型不好，画面会散；TTS 不自然，视频会显得粗糙；模板不合适，最终成片也会缺少辨识度。&lt;/p&gt;
&lt;p&gt;所以使用 Pixelle-Video 时，建议先从一个固定场景开始调试，比如“60 秒知识科普竖屏视频”。把 LLM、画面风格、TTS 音色、BGM 和模板固定下来，再逐步扩大到其他主题。&lt;/p&gt;
&lt;p&gt;另外，项目虽然支持本地免费方案，但本地方案通常需要显卡、ComfyUI 配置和模型文件。没有本地推理环境的用户，可以用云端 LLM 加 RunningHub 的方式降低部署难度，但要留意调用成本。&lt;/p&gt;
&lt;h2 id=&#34;简短判断&#34;&gt;简短判断
&lt;/h2&gt;&lt;p&gt;Pixelle-Video 的看点不只是“输入一句话生成视频”，而是它把短视频生产拆成可替换的模块：文案、画面、语音、音乐、模板和合成。对普通用户，它是一个低门槛 AI 视频工具；对开发者，它更像一个可改造的短视频自动化框架。&lt;/p&gt;
&lt;p&gt;如果你正在研究 AI 短视频流水线，或者想把 ComfyUI、TTS、LLM 和模板合成串成一个可用产品，Pixelle-Video 值得试用和拆解。&lt;/p&gt;
</description>
        </item>
        
    </channel>
</rss>
