<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>AIGC on KnightLi的博客</title>
        <link>https://www.knightli.com/zh-tw/tags/aigc/</link>
        <description>Recent content in AIGC on KnightLi的博客</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-tw</language>
        <lastBuildDate>Thu, 07 May 2026 20:25:17 +0800</lastBuildDate><atom:link href="https://www.knightli.com/zh-tw/tags/aigc/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>Pixelle-Video：一句主題生成短影片的開源 AI 引擎</title>
        <link>https://www.knightli.com/zh-tw/2026/05/07/pixelle-video-ai-short-video-engine/</link>
        <pubDate>Thu, 07 May 2026 20:25:17 +0800</pubDate>
        
        <guid>https://www.knightli.com/zh-tw/2026/05/07/pixelle-video-ai-short-video-engine/</guid>
        <description>&lt;p&gt;&lt;a class=&#34;link&#34; href=&#34;https://github.com/AIDC-AI/Pixelle-Video&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Pixelle-Video&lt;/a&gt; 是 AIDC-AI 開源的全自動短影片生成引擎。它的目標很直白：使用者輸入一個主題，系統自動完成影片文案、AI 配圖或影片、語音解說、背景音樂和最終合成。&lt;/p&gt;
&lt;p&gt;這類工具適合短影片批量創作、知識科普、口播內容、小說解說、歷史文化類影片和自媒體素材實驗。它不是單一的「文生影片模型」，而是把多種 AI 能力接成一條生產流水線。&lt;/p&gt;
&lt;h2 id=&#34;它能自動做什麼&#34;&gt;它能自動做什麼
&lt;/h2&gt;&lt;p&gt;Pixelle-Video 的預設流程可以概括為：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;輸入主題或固定文案；&lt;/li&gt;
&lt;li&gt;由大型語言模型生成解說詞；&lt;/li&gt;
&lt;li&gt;根據分鏡規劃生成配圖或影片素材；&lt;/li&gt;
&lt;li&gt;使用 TTS 生成語音解說；&lt;/li&gt;
&lt;li&gt;添加背景音樂；&lt;/li&gt;
&lt;li&gt;套用影片模板並合成最終成片。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;README 中給出的流程是「文案生成 → 配圖規劃 → 逐幀處理 → 影片合成」。這種模組化設計的好處是清晰：每一步都可以替換模型、調整參數或改用自訂工作流。&lt;/p&gt;
&lt;h2 id=&#34;功能亮點&#34;&gt;功能亮點
&lt;/h2&gt;&lt;p&gt;專案支援的能力相當完整：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;AI 智慧文案：根據主題自動生成影片解說詞；&lt;/li&gt;
&lt;li&gt;AI 配圖：為每句話或每個分鏡生成插圖；&lt;/li&gt;
&lt;li&gt;AI 影片生成：支援接入 WAN 2.1 等影片生成模型；&lt;/li&gt;
&lt;li&gt;TTS 語音：支援 Edge-TTS、Index-TTS 等方案；&lt;/li&gt;
&lt;li&gt;背景音樂：可以使用內建 BGM，也可以放入自訂音樂；&lt;/li&gt;
&lt;li&gt;多尺寸輸出：支援直式、橫式等不同影片比例；&lt;/li&gt;
&lt;li&gt;多模型選擇：可接入 GPT、通義千問、DeepSeek、Ollama 等；&lt;/li&gt;
&lt;li&gt;ComfyUI 工作流：可以使用預置工作流，也可以替換生圖、TTS、影片生成等環節。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;最近更新裡還提到動作遷移、數位人口播、圖生影片、多語言 TTS 音色、RunningHub 支援、Windows 一鍵整合包等內容。這說明專案已經不只是一個腳本，而是在往完整創作工具方向發展。&lt;/p&gt;
&lt;h2 id=&#34;安裝和啟動方式&#34;&gt;安裝和啟動方式
&lt;/h2&gt;&lt;p&gt;Windows 使用者可以優先看官方提供的一鍵整合包。它的定位是降低安裝門檻，不需要手動準備 Python、uv 或 ffmpeg，解壓後執行 &lt;code&gt;start.bat&lt;/code&gt;，再在瀏覽器裡打開 Web 介面配置 API 和圖像生成服務。&lt;/p&gt;
&lt;p&gt;如果從源碼啟動，README 給出的基本方式是：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;git clone https://github.com/AIDC-AI/Pixelle-Video.git
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;cd&lt;/span&gt; Pixelle-Video
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;uv run streamlit run web/app.py
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;源碼方式適合 macOS、Linux 使用者，也適合需要修改模板、工作流或服務配置的人。前置依賴主要是 &lt;code&gt;uv&lt;/code&gt; 和 &lt;code&gt;ffmpeg&lt;/code&gt;。&lt;/p&gt;
&lt;h2 id=&#34;配置重點&#34;&gt;配置重點
&lt;/h2&gt;&lt;p&gt;第一次使用時，關鍵不是先點「生成」，而是把幾個外部能力接好。&lt;/p&gt;
&lt;p&gt;LLM 配置決定文案品質。你可以選擇通義千問、GPT、DeepSeek、Ollama 等模型，並填寫對應的 API Key、Base URL 和模型名。如果想盡量降低成本，本地 Ollama 是一個方向；如果追求穩定效果，雲端模型會更省心。&lt;/p&gt;
&lt;p&gt;圖像和影片生成配置決定畫面品質。專案支援本地 ComfyUI，也支援 RunningHub。懂 ComfyUI 的使用者可以把自己的工作流放進 &lt;code&gt;workflows/&lt;/code&gt; 目錄，用來替換預設生圖、影片或 TTS 流程。&lt;/p&gt;
&lt;p&gt;模板配置決定最終成片的視覺形態。專案用 &lt;code&gt;templates/&lt;/code&gt; 目錄組織影片模板，靜態模板、圖片模板和影片模板按命名規則區分。對內容創作者來說，這比只生成一段素材更實用，因為最終交付物是可以直接預覽和下載的影片。&lt;/p&gt;
&lt;h2 id=&#34;適合什麼人&#34;&gt;適合什麼人
&lt;/h2&gt;&lt;p&gt;Pixelle-Video 比較適合三類使用者：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;短影片創作者&lt;/strong&gt;：想快速把選題變成可發布的草稿影片；&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;AIGC 工具玩家&lt;/strong&gt;：想把 LLM、ComfyUI、TTS 和影片合成串起來；&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;開發者和自動化使用者&lt;/strong&gt;：想基於開源專案改模板、改工作流，甚至接入自己的素材和模型。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;如果你只想偶爾做一支高品質精品影片，它未必能直接替代人工剪輯；但如果你想批量生成結構一致的解釋類、口播類、科普類內容，它的流水線思路很有價值。&lt;/p&gt;
&lt;h2 id=&#34;需要注意的地方&#34;&gt;需要注意的地方
&lt;/h2&gt;&lt;p&gt;這類工具的上限由多個環節共同決定。文案模型不好，內容會空；配圖模型不好，畫面會散；TTS 不自然，影片會顯得粗糙；模板不合適，最終成片也會缺少辨識度。&lt;/p&gt;
&lt;p&gt;所以使用 Pixelle-Video 時，建議先從一個固定場景開始調試，比如「60 秒知識科普直式影片」。把 LLM、畫面風格、TTS 音色、BGM 和模板固定下來，再逐步擴大到其他主題。&lt;/p&gt;
&lt;p&gt;另外，專案雖然支援本地免費方案，但本地方案通常需要顯卡、ComfyUI 配置和模型檔案。沒有本地推理環境的使用者，可以用雲端 LLM 加 RunningHub 的方式降低部署難度，但要留意呼叫成本。&lt;/p&gt;
&lt;h2 id=&#34;簡短判斷&#34;&gt;簡短判斷
&lt;/h2&gt;&lt;p&gt;Pixelle-Video 的看點不只是「輸入一句話生成影片」，而是它把短影片生產拆成可替換的模組：文案、畫面、語音、音樂、模板和合成。對普通使用者，它是一個低門檻 AI 影片工具；對開發者，它更像一個可改造的短影片自動化框架。&lt;/p&gt;
&lt;p&gt;如果你正在研究 AI 短影片流水線，或者想把 ComfyUI、TTS、LLM 和模板合成串成一個可用產品，Pixelle-Video 值得試用和拆解。&lt;/p&gt;
</description>
        </item>
        
    </channel>
</rss>
