<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>TTS on KnightLi的博客</title>
        <link>https://www.knightli.com/tags/tts/</link>
        <description>Recent content in TTS on KnightLi的博客</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-cn</language>
        <lastBuildDate>Tue, 12 May 2026 22:15:34 +0800</lastBuildDate><atom:link href="https://www.knightli.com/tags/tts/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>计算机术语人话版：TTS、STT、API、RAG、Agent 到底在说什么</title>
        <link>https://www.knightli.com/2026/05/12/computer-terms-in-plain-language/</link>
        <pubDate>Tue, 12 May 2026 22:15:34 +0800</pubDate>
        
        <guid>https://www.knightli.com/2026/05/12/computer-terms-in-plain-language/</guid>
        <description>&lt;p&gt;计算机领域有很多词，第一次听会觉得很高级。可一旦翻译成人话，往往就是日常生活里很简单的动作。&lt;/p&gt;
&lt;p&gt;比如 AI 能说话，叫 &lt;code&gt;TTS&lt;/code&gt;；AI 能听你说话，叫 &lt;code&gt;STT&lt;/code&gt;。听起来像复杂系统，拆开就是“把文字读出来”和“把声音写下来”。&lt;/p&gt;
&lt;p&gt;参考链接：&lt;a class=&#34;link&#34; href=&#34;https://www.zhihu.com/question/267978646/answer/2035405228460201515&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://www.zhihu.com/question/267978646/answer/2035405228460201515&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;这篇就从这个角度串讲一些常见术语：保留术语本身，但把它们说成人话。&lt;/p&gt;
&lt;h2 id=&#34;tts-和-stt文字和语音互转&#34;&gt;TTS 和 STT：文字和语音互转
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;TTS&lt;/code&gt; 是 &lt;code&gt;Text-to-Speech&lt;/code&gt;，意思是“文本转语音”。你输入一段文字，系统把它变成声音。导航播报、电子书朗读、AI 客服开口说话，都属于这个方向。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;STT&lt;/code&gt; 是 &lt;code&gt;Speech-to-Text&lt;/code&gt;，意思是“语音转文本”。你对手机说一句话，系统先把语音识别成文字，再交给后面的程序处理。语音输入法、会议转写、自动字幕、智能音箱，都离不开它。&lt;/p&gt;
&lt;p&gt;很多语音 AI 产品的流程其实就是：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;code&gt;STT&lt;/code&gt;：把你说的话转成文字。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;LLM&lt;/code&gt;：根据文字生成回答。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;TTS&lt;/code&gt;：把回答读出来。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;所以它看起来像在和你自然聊天，底层往往是几个模块在接力。&lt;/p&gt;
&lt;h2 id=&#34;ocr从图片里抄字&#34;&gt;OCR：从图片里抄字
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;OCR&lt;/code&gt; 是 &lt;code&gt;Optical Character Recognition&lt;/code&gt;，中文常说“光学字符识别”。&lt;/p&gt;
&lt;p&gt;听起来很硬核，其实就是从图片里把文字抄出来。拍一张发票、扫描一页书、识别身份证上的姓名和号码，本质都是 OCR。&lt;/p&gt;
&lt;p&gt;以前 OCR 更像“看字形猜文字”，现在会结合深度学习，对复杂背景、倾斜文字、手写字和低清图片的容忍度更高。但它解决的核心问题仍然很直接：图片里有什么字？&lt;/p&gt;
&lt;h2 id=&#34;nlp-和-llm让机器处理人话&#34;&gt;NLP 和 LLM：让机器处理人话
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;NLP&lt;/code&gt; 是 &lt;code&gt;Natural Language Processing&lt;/code&gt;，自然语言处理。它处理的是人类语言，比如分词、翻译、摘要、情感分析、问答、分类。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;LLM&lt;/code&gt; 是 &lt;code&gt;Large Language Model&lt;/code&gt;，大语言模型。它可以理解和生成文本，所以今天很多 NLP 任务都被 LLM 接管了。&lt;/p&gt;
&lt;p&gt;人话版理解：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;NLP&lt;/code&gt;：让机器处理人说的话、写的字。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;LLM&lt;/code&gt;：一个更大的文本模型，能接住很多语言任务。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;你让 AI 总结文章、写邮件、改标题、解释代码，背后都属于这个大方向。&lt;/p&gt;
&lt;h2 id=&#34;api-和-sdk一个是接口一个是工具包&#34;&gt;API 和 SDK：一个是接口，一个是工具包
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;API&lt;/code&gt; 是 &lt;code&gt;Application Programming Interface&lt;/code&gt;，应用程序编程接口。&lt;/p&gt;
&lt;p&gt;人话就是：别人把能力开一个入口给你调用。比如天气 API，你传城市，它返回天气；支付 API，你传订单，它返回支付结果。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;SDK&lt;/code&gt; 是 &lt;code&gt;Software Development Kit&lt;/code&gt;，软件开发工具包。&lt;/p&gt;
&lt;p&gt;人话就是：为了让你更方便调用 API，官方把常用代码、类型、示例和工具打包给你。API 像餐厅窗口，SDK 像点餐小程序。你可以直接去窗口说需求，也可以用小程序点得更省事。&lt;/p&gt;
&lt;h2 id=&#34;crud增删改查&#34;&gt;CRUD：增删改查
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;CRUD&lt;/code&gt; 是 &lt;code&gt;Create&lt;/code&gt;、&lt;code&gt;Read&lt;/code&gt;、&lt;code&gt;Update&lt;/code&gt;、&lt;code&gt;Delete&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;翻译成人话就是：新增、查看、修改、删除。&lt;/p&gt;
&lt;p&gt;很多后台系统、管理系统、数据库操作，本质都在围绕 CRUD 打转。用户管理、文章管理、订单管理、库存管理，看起来业务不同，底层经常都是一组表单加一组增删改查。&lt;/p&gt;
&lt;p&gt;这也是为什么程序员会说“又写了一个 CRUD”。不是看不起这个工作，而是它确实太常见。&lt;/p&gt;
&lt;h2 id=&#34;cache先放一份省得每次重算&#34;&gt;Cache：先放一份，省得每次重算
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;Cache&lt;/code&gt; 是缓存。&lt;/p&gt;
&lt;p&gt;人话就是：常用的东西先放在手边，下次直接拿，不要每次都重新找、重新算、重新请求。&lt;/p&gt;
&lt;p&gt;网页加载慢，可以把图片和脚本缓存起来；数据库查询慢，可以把热门结果放进 Redis；模型推理贵，可以缓存重复问题的答案。&lt;/p&gt;
&lt;p&gt;缓存的难点不在“放一份”，而在“什么时候更新”。数据变了，缓存没变，就会出现旧数据。这就是很多缓存问题的根源。&lt;/p&gt;
&lt;h2 id=&#34;queue排队慢慢处理&#34;&gt;Queue：排队慢慢处理
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;Queue&lt;/code&gt; 是队列。&lt;/p&gt;
&lt;p&gt;人话就是：事情太多，先排队，一个一个处理。&lt;/p&gt;
&lt;p&gt;比如用户上传视频后，不一定马上转码完成。系统可以先把任务放进队列，后台服务慢慢处理。发短信、发邮件、生成报表、处理订单回调，也经常用队列。&lt;/p&gt;
&lt;p&gt;队列解决的是“不要所有事情都卡在当前请求里”。用户先得到响应，耗时任务放到后面做。&lt;/p&gt;
&lt;h2 id=&#34;index给数据库做目录&#34;&gt;Index：给数据库做目录
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;Index&lt;/code&gt; 是索引。&lt;/p&gt;
&lt;p&gt;数据库里的索引，可以理解成书的目录。没有目录，你要从第一页翻到最后一页；有目录，你可以更快定位到目标内容。&lt;/p&gt;
&lt;p&gt;但索引不是越多越好。查询会变快，写入和更新可能变慢，因为数据改了，索引也要跟着维护。&lt;/p&gt;
&lt;p&gt;所以数据库优化里常见的一句话是：慢查询先看索引。但真正做索引时，还要看查询条件、排序字段、数据量和写入频率。&lt;/p&gt;
&lt;h2 id=&#34;rpcrest-和-webhook系统之间怎么说话&#34;&gt;RPC、REST 和 Webhook：系统之间怎么说话
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;RPC&lt;/code&gt; 是 &lt;code&gt;Remote Procedure Call&lt;/code&gt;，远程过程调用。&lt;/p&gt;
&lt;p&gt;人话就是：我像调用本地函数一样，去调用另一台机器上的函数。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;REST&lt;/code&gt; 常见于 Web API。它更像用 URL 和 HTTP 方法来表达资源操作，比如 &lt;code&gt;GET /users&lt;/code&gt; 查用户，&lt;code&gt;POST /orders&lt;/code&gt; 创建订单。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;Webhook&lt;/code&gt; 则是反过来通知你。你不用一直问“好了没”，对方处理完后主动回调你的地址。&lt;/p&gt;
&lt;p&gt;简单记：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;RPC&lt;/code&gt;：像远程调用函数。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;REST&lt;/code&gt;：用 HTTP 管理资源。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Webhook&lt;/code&gt;：事情发生后主动通知你。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;cdn-和-load-balancing离你近一点分担一点&#34;&gt;CDN 和 Load Balancing：离你近一点，分担一点
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;CDN&lt;/code&gt; 是 &lt;code&gt;Content Delivery Network&lt;/code&gt;，内容分发网络。&lt;/p&gt;
&lt;p&gt;人话就是：把静态资源放到离用户更近的节点。用户访问图片、视频、CSS、JS 时，不必每次都跑到源站。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;Load Balancing&lt;/code&gt; 是负载均衡。&lt;/p&gt;
&lt;p&gt;人话就是：访问量太大，不要让一台服务器硬扛，把请求分给多台机器。&lt;/p&gt;
&lt;p&gt;一个偏“离用户近”，一个偏“别让机器累死”。大型网站通常两个都会用。&lt;/p&gt;
&lt;h2 id=&#34;dockercontainer-和-kubernetes打包运行调度&#34;&gt;Docker、Container 和 Kubernetes：打包、运行、调度
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;Docker&lt;/code&gt; 是常见的容器工具，&lt;code&gt;Container&lt;/code&gt; 是容器。&lt;/p&gt;
&lt;p&gt;人话就是：把程序和它依赖的环境打包在一起，换一台机器也尽量能一样运行。这样可以减少“我电脑上能跑，服务器上不能跑”的问题。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;Kubernetes&lt;/code&gt;，常写作 &lt;code&gt;K8s&lt;/code&gt;，是容器编排系统。&lt;/p&gt;
&lt;p&gt;人话就是：当容器很多时，帮你安排它们运行在哪里、挂了怎么重启、流量怎么分、版本怎么更新。&lt;/p&gt;
&lt;p&gt;如果只有一个小服务，Docker 就够了；如果有很多服务、很多机器、很多副本，才会更需要 K8s。&lt;/p&gt;
&lt;h2 id=&#34;cicd自动构建自动发布&#34;&gt;CI/CD：自动构建、自动发布
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;CI&lt;/code&gt; 是 &lt;code&gt;Continuous Integration&lt;/code&gt;，持续集成。&lt;/p&gt;
&lt;p&gt;人话就是：代码一提交，系统自动拉代码、跑测试、构建，尽早发现问题。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;CD&lt;/code&gt; 可以指 &lt;code&gt;Continuous Delivery&lt;/code&gt; 或 &lt;code&gt;Continuous Deployment&lt;/code&gt;，持续交付或持续部署。&lt;/p&gt;
&lt;p&gt;人话就是：构建通过后，把代码更稳定、更自动地送到测试环境或生产环境。&lt;/p&gt;
&lt;p&gt;它解决的不是“写代码”，而是“写完代码之后，怎么少出错地上线”。&lt;/p&gt;
&lt;h2 id=&#34;serialization把对象打包成可传输格式&#34;&gt;Serialization：把对象打包成可传输格式
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;Serialization&lt;/code&gt; 是序列化。&lt;/p&gt;
&lt;p&gt;人话就是：把程序里的对象变成能保存、能传输的格式，比如 JSON、XML、Protobuf。&lt;/p&gt;
&lt;p&gt;反过来，&lt;code&gt;Deserialization&lt;/code&gt; 是反序列化：把这些格式再还原成程序能用的对象。&lt;/p&gt;
&lt;p&gt;你在前后端之间传 JSON，在服务之间传 Protobuf，本质都离不开序列化。&lt;/p&gt;
&lt;h2 id=&#34;tokenembeddingvector-db把文字变成模型能处理的形式&#34;&gt;Token、Embedding、Vector DB：把文字变成模型能处理的形式
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;Token&lt;/code&gt; 在大模型里通常指文本切分后的基本单位。它不一定等于一个汉字或一个英文单词，更像模型内部处理文本时的颗粒。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;Embedding&lt;/code&gt; 是嵌入向量。&lt;/p&gt;
&lt;p&gt;人话就是：把文字、图片或其他内容变成一串数字，让模型可以比较它们之间的相似度。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;Vector DB&lt;/code&gt; 是向量数据库。&lt;/p&gt;
&lt;p&gt;人话就是：专门存这些向量，并且能快速找出“意思相近”的内容。&lt;/p&gt;
&lt;p&gt;比如你问“怎么重置路由器”，系统可能去向量库里找“恢复出厂设置”“忘记 Wi-Fi 密码”“后台登录失败”等相近内容，再拿回来给模型参考。&lt;/p&gt;
&lt;h2 id=&#34;rag先查资料再回答&#34;&gt;RAG：先查资料，再回答
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;RAG&lt;/code&gt; 是 &lt;code&gt;Retrieval-Augmented Generation&lt;/code&gt;，检索增强生成。&lt;/p&gt;
&lt;p&gt;人话就是：模型回答前，先去资料库查相关内容，再带着资料回答。&lt;/p&gt;
&lt;p&gt;它解决的是大模型容易“凭记忆瞎说”的问题。把企业文档、知识库、产品手册、代码片段接进来，模型就不只是靠训练时的记忆，而是能参考你给它的最新资料。&lt;/p&gt;
&lt;p&gt;典型流程是：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;用户提问。&lt;/li&gt;
&lt;li&gt;系统把问题转成 &lt;code&gt;Embedding&lt;/code&gt;。&lt;/li&gt;
&lt;li&gt;去 &lt;code&gt;Vector DB&lt;/code&gt; 里找相关文档。&lt;/li&gt;
&lt;li&gt;把文档片段和问题一起交给 &lt;code&gt;LLM&lt;/code&gt;。&lt;/li&gt;
&lt;li&gt;模型生成回答。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;所以 RAG 听起来高级，本质是“先翻资料，再组织语言”。&lt;/p&gt;
&lt;h2 id=&#34;agent会自己拆任务的自动化流程&#34;&gt;Agent：会自己拆任务的自动化流程
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;Agent&lt;/code&gt; 在 AI 语境里经常被翻译成智能体。&lt;/p&gt;
&lt;p&gt;人话就是：它不只是回答一句话，而是能根据目标拆步骤、调用工具、观察结果，再决定下一步。&lt;/p&gt;
&lt;p&gt;比如你让它“帮我分析这个仓库为什么测试失败”，普通聊天模型可能只给建议；Agent 则可能会读文件、运行测试、看报错、改代码、再跑测试。&lt;/p&gt;
&lt;p&gt;当然，Agent 不等于一定可靠。它只是把“模型 + 工具调用 + 状态循环”串起来。真正好不好用，还要看工具权限、任务边界、错误处理和人工确认机制。&lt;/p&gt;
&lt;h2 id=&#34;小结&#34;&gt;小结
&lt;/h2&gt;&lt;p&gt;很多计算机术语之所以显得高级，是因为它们被英文缩写、架构图和产品文案包了一层壳。拆开之后，大多是在描述很朴素的动作：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;TTS&lt;/code&gt;：把文字读出来。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;STT&lt;/code&gt;：把声音写下来。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;OCR&lt;/code&gt;：从图片里抄字。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;API&lt;/code&gt;：开放一个调用入口。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;SDK&lt;/code&gt;：把调用工具打包好。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;CRUD&lt;/code&gt;：增删改查。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Cache&lt;/code&gt;：常用结果先存一份。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Queue&lt;/code&gt;：任务排队慢慢处理。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Index&lt;/code&gt;：给数据做目录。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;CDN&lt;/code&gt;：把内容放近一点。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Load Balancing&lt;/code&gt;：把请求分散一点。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Docker&lt;/code&gt;：把运行环境打包。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;CI/CD&lt;/code&gt;：让测试和发布自动化。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Embedding&lt;/code&gt;：把内容变成数字向量。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;RAG&lt;/code&gt;：先查资料，再回答。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Agent&lt;/code&gt;：让模型带着工具分步做事。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;术语要保留，因为它们方便搜索、沟通和查文档。但理解时不用被它们吓住。先翻译成人话，再回到技术细节里看，很多概念会清楚得多。&lt;/p&gt;
&lt;h2 id=&#34;参考&#34;&gt;参考
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;知乎回答：&lt;a class=&#34;link&#34; href=&#34;https://www.zhihu.com/question/267978646/answer/2035405228460201515&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://www.zhihu.com/question/267978646/answer/2035405228460201515&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>Pixelle-Video：一句主题生成短视频的开源 AI 引擎</title>
        <link>https://www.knightli.com/2026/05/07/pixelle-video-ai-short-video-engine/</link>
        <pubDate>Thu, 07 May 2026 20:25:17 +0800</pubDate>
        
        <guid>https://www.knightli.com/2026/05/07/pixelle-video-ai-short-video-engine/</guid>
        <description>&lt;p&gt;&lt;a class=&#34;link&#34; href=&#34;https://github.com/AIDC-AI/Pixelle-Video&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Pixelle-Video&lt;/a&gt; 是 AIDC-AI 开源的全自动短视频生成引擎。它的目标很直白：用户输入一个主题，系统自动完成视频文案、AI 配图或视频、语音解说、背景音乐和最终合成。&lt;/p&gt;
&lt;p&gt;这类工具适合短视频批量创作、知识科普、口播内容、小说解说、历史文化类视频和自媒体素材实验。它不是单一的“文生视频模型”，而是把多种 AI 能力接成一条生产流水线。&lt;/p&gt;
&lt;h2 id=&#34;它能自动做什么&#34;&gt;它能自动做什么
&lt;/h2&gt;&lt;p&gt;Pixelle-Video 的默认流程可以概括为：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;输入主题或固定文案；&lt;/li&gt;
&lt;li&gt;由大语言模型生成解说词；&lt;/li&gt;
&lt;li&gt;根据分镜规划生成配图或视频素材；&lt;/li&gt;
&lt;li&gt;使用 TTS 生成语音解说；&lt;/li&gt;
&lt;li&gt;添加背景音乐；&lt;/li&gt;
&lt;li&gt;套用视频模板并合成最终成片。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;README 中给出的流程是“文案生成 → 配图规划 → 逐帧处理 → 视频合成”。这种模块化设计的好处是清晰：每一步都可以替换模型、调整参数或改用自定义工作流。&lt;/p&gt;
&lt;h2 id=&#34;功能亮点&#34;&gt;功能亮点
&lt;/h2&gt;&lt;p&gt;项目支持的能力比较完整：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;AI 智能文案：根据主题自动生成视频解说词；&lt;/li&gt;
&lt;li&gt;AI 配图：为每句话或每个分镜生成插图；&lt;/li&gt;
&lt;li&gt;AI 视频生成：支持接入 WAN 2.1 等视频生成模型；&lt;/li&gt;
&lt;li&gt;TTS 语音：支持 Edge-TTS、Index-TTS 等方案；&lt;/li&gt;
&lt;li&gt;背景音乐：可以使用内置 BGM，也可以放入自定义音乐；&lt;/li&gt;
&lt;li&gt;多尺寸输出：支持竖屏、横屏等不同视频比例；&lt;/li&gt;
&lt;li&gt;多模型选择：可接入 GPT、通义千问、DeepSeek、Ollama 等；&lt;/li&gt;
&lt;li&gt;ComfyUI 工作流：可以使用预置工作流，也可以替换生图、TTS、视频生成等环节。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;最近更新里还提到动作迁移、数字人口播、图生视频、多语言 TTS 音色、RunningHub 支持、Windows 一键整合包等内容。这说明项目已经不只是一个脚本，而是在往完整创作工具方向发展。&lt;/p&gt;
&lt;h2 id=&#34;安装和启动方式&#34;&gt;安装和启动方式
&lt;/h2&gt;&lt;p&gt;Windows 用户可以优先看官方提供的一键整合包。它的定位是降低安装门槛，不需要手动准备 Python、uv 或 ffmpeg，解压后运行 &lt;code&gt;start.bat&lt;/code&gt;，再在浏览器里打开 Web 界面配置 API 和图像生成服务。&lt;/p&gt;
&lt;p&gt;如果从源码启动，README 给出的基本方式是：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;git clone https://github.com/AIDC-AI/Pixelle-Video.git
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;cd&lt;/span&gt; Pixelle-Video
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;uv run streamlit run web/app.py
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;源码方式适合 macOS、Linux 用户，也适合需要修改模板、工作流或服务配置的人。前置依赖主要是 &lt;code&gt;uv&lt;/code&gt; 和 &lt;code&gt;ffmpeg&lt;/code&gt;。&lt;/p&gt;
&lt;h2 id=&#34;配置重点&#34;&gt;配置重点
&lt;/h2&gt;&lt;p&gt;第一次使用时，关键不是先点“生成”，而是把几个外部能力接好。&lt;/p&gt;
&lt;p&gt;LLM 配置决定文案质量。你可以选择通义千问、GPT、DeepSeek、Ollama 等模型，并填写对应的 API Key、Base URL 和模型名。如果想尽量降低成本，本地 Ollama 是一个方向；如果追求稳定效果，云端模型会更省心。&lt;/p&gt;
&lt;p&gt;图像和视频生成配置决定画面质量。项目支持本地 ComfyUI，也支持 RunningHub。懂 ComfyUI 的用户可以把自己的工作流放进 &lt;code&gt;workflows/&lt;/code&gt; 目录，用来替换默认生图、视频或 TTS 流程。&lt;/p&gt;
&lt;p&gt;模板配置决定最终成片的视觉形态。项目用 &lt;code&gt;templates/&lt;/code&gt; 目录组织视频模板，静态模板、图片模板和视频模板按命名规则区分。对内容创作者来说，这比只生成一段素材更实用，因为最终交付物是可以直接预览和下载的视频。&lt;/p&gt;
&lt;h2 id=&#34;适合什么人&#34;&gt;适合什么人
&lt;/h2&gt;&lt;p&gt;Pixelle-Video 比较适合三类用户：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;短视频创作者&lt;/strong&gt;：想快速把选题变成可发布的草稿视频；&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;AIGC 工具玩家&lt;/strong&gt;：想把 LLM、ComfyUI、TTS 和视频合成串起来；&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;开发者和自动化用户&lt;/strong&gt;：想基于开源项目改模板、改工作流，甚至接入自己的素材和模型。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;如果你只想偶尔做一个高质量精品视频，它未必能直接替代人工剪辑；但如果你想批量生成结构一致的解释类、口播类、科普类内容，它的流水线思路很有价值。&lt;/p&gt;
&lt;h2 id=&#34;需要注意的地方&#34;&gt;需要注意的地方
&lt;/h2&gt;&lt;p&gt;这类工具的上限由多个环节共同决定。文案模型不好，内容会空；配图模型不好，画面会散；TTS 不自然，视频会显得粗糙；模板不合适，最终成片也会缺少辨识度。&lt;/p&gt;
&lt;p&gt;所以使用 Pixelle-Video 时，建议先从一个固定场景开始调试，比如“60 秒知识科普竖屏视频”。把 LLM、画面风格、TTS 音色、BGM 和模板固定下来，再逐步扩大到其他主题。&lt;/p&gt;
&lt;p&gt;另外，项目虽然支持本地免费方案，但本地方案通常需要显卡、ComfyUI 配置和模型文件。没有本地推理环境的用户，可以用云端 LLM 加 RunningHub 的方式降低部署难度，但要留意调用成本。&lt;/p&gt;
&lt;h2 id=&#34;简短判断&#34;&gt;简短判断
&lt;/h2&gt;&lt;p&gt;Pixelle-Video 的看点不只是“输入一句话生成视频”，而是它把短视频生产拆成可替换的模块：文案、画面、语音、音乐、模板和合成。对普通用户，它是一个低门槛 AI 视频工具；对开发者，它更像一个可改造的短视频自动化框架。&lt;/p&gt;
&lt;p&gt;如果你正在研究 AI 短视频流水线，或者想把 ComfyUI、TTS、LLM 和模板合成串成一个可用产品，Pixelle-Video 值得试用和拆解。&lt;/p&gt;
</description>
        </item>
        
    </channel>
</rss>
