ComfyUI on KnightLi的博客

筆記型電腦 RTX 4060 8GB 適合跑哪些本地 AI 模型

Fri, 08 May 2026 13:41:15 +0800

筆記型電腦 RTX 4060 8GB 可以玩本地 AI，但邊界很清楚：重點不是模型能不能啟動，而是顯存是否溢出。行動版 RTX 4060 也會受整機功耗、散熱、顯存頻寬和廠商調校影響。

在 2026 年，8GB 顯存仍是本地 AI 的入門基準線。選對量化模型和工具鏈，它可以執行 3B-8B LLM、SDXL、SD 1.5、部分 FLUX 量化工作流、Whisper 轉寫和圖像特徵提取。若強行跑 14B 以上 LLM、未量化大模型或高顯存生圖工作流，速度會在溢出到系統記憶體後明顯崩掉。

一句話：不要追最大模型，優先小模型、量化權重和低顯存工作流。

顯存預算

Windows 11、瀏覽器、驅動和背景程式會先佔一部分顯存。實際留給 AI 的顯存通常更接近 6.5GB-7.2GB。

LLM：優先 3B-8B，使用 4-bit 量化。
圖像生成：優先 SDXL、SD 1.5、FLUX GGUF/NF4 低顯存工作流。
多模態：優先 4B 左右輕量模型。
語音：Whisper large-v3 可跑，但長批次要注意發熱。
圖像索引：CLIP、ViT、SigLIP 很適合。

顯存一旦溢出到系統記憶體，體驗會很差。較小且完整放進 GPU 的模型，通常比半 offload 的大模型更好。

LLM：3B-8B 量化模型

本地聊天和文本推理可用 Ollama、LM Studio、koboldcpp、llama.cpp 或其他支援 GGUF 的前端。8GB 顯存最舒服的區間是 3B-8B 的 4-bit 量化模型。

全能輕量：Gemma 4 E4B

Gemma 4 E4B 是 Google 2026 年 Gemma 4 系列小模型之一，適合本地和端側使用。它可承擔日常問答、摘要、輕量多模態和低成本推理。

筆記型 RTX 4060 建議優先找官方或社群量化版本，不要一開始就追最高精度權重。

適合：

日常問答。
摘要和改寫。
輕量資料整理。
簡單程式碼解釋。
圖像理解輕任務。

推理與長文本：DeepSeek R1 Distill 7B/8B、Qwen 3 8B

如果重視邏輯、數學、複雜分析和中文長文本，可試 DeepSeek R1 distill 7B/8B 或 Qwen 3 8B 量化版。

Q4_K_M 通常能讓 8B 模型進入 8GB 可承受範圍。實際速度受上下文長度、後端、驅動和筆電功耗模式影響。

不建議一開始跑 14B、32B 或更大模型。即使能透過 CPU offload 啟動，體驗通常不如小模型全 GPU。

程式碼：Qwen 2.5 Coder 3B/7B

Qwen 2.5 Coder 3B 適合即時補全、解釋和小片段生成；7B 理解能力更好，但顯存和延遲更高。

即時補全：3B。
問答和解釋：3B 或 7B。
小型重構：7B 量化。
大型架構分析：不要期待 8GB 顯存容納完整專案上下文。

圖像生成

SD 1.5 和 SDXL

SD 1.5 對 8GB 很友好，速度快，生態成熟。SDXL 要求更高，但仍可用。

推薦工具：

ComfyUI
Stable Diffusion WebUI Forge
Fooocus

SD 1.5 適合快速出圖、LoRA、ControlNet；SDXL 更適合通用品質。

FLUX.1 schnell

FLUX 畫質和提示詞理解更強，但原始模型顯存壓力大。8GB 顯存建議使用 GGUF、NF4、FP8 等低顯存方案，搭配 ComfyUI-GGUF 或低顯存工作流。

使用 FLUX.1 schnell GGUF Q4/Q5。
降低解析度或 batch size。
使用 ComfyUI --lowvram。
不要同時掛太多 LoRA、ControlNet 和高清修復。
觀察工作流切換後顯存是否釋放。

可以嘗試 1024px，但不要照搬 16GB/24GB 桌機工作流。

多模態與效率工具

Whisper large-v3 可用於語音轉文字，適合會議錄音、課程音訊、影片字幕和素材整理。長批次要開性能模式並注意散熱。

照片檢索系統則很適合 4060 8GB。CLIP、ViT、SigLIP 對顯存要求不誇張，可快速處理幾千張圖片。

典型流程：

用 CLIP/ViT/SigLIP 提取 embedding。
保存到 SQLite 或向量庫。
用文字或相似圖片檢索。
用小型 LLM 生成標籤、描述或相簿摘要。

避坑

場景	建議
大模型	避免 14B+，除非接受明顯降速
量化	先選 `Q4_K_M`，再嘗試 Q5
顯存	用工作管理員或 `nvidia-smi` 監控
散熱	生圖和批次任務開性能模式
解析度	從 768px 或單張 1024px 開始
瀏覽器	關掉佔顯存的分頁
驅動	保持 NVIDIA 驅動較新
工作流	不要照搬 16GB/24GB ComfyUI 工作流

建議定位

筆記型 RTX 4060 8GB 最適合做高性價比本地 AI 入門平台。它適合 3B-8B LLM、小型程式碼模型、SDXL、SD 1.5、FLUX 量化體驗、Whisper、圖像向量索引和照片管理。

不適合長期跑 14B/32B、大型未量化模型、高解析度批量 FLUX、大規模影片生成或多模型同時常駐。

參考資料

AMD ROCm 7.2 + ComfyUI 相容性配置：Windows 上的 CUDA 平替怎麼用

Fri, 08 May 2026 10:09:05 +0800

過去很長一段時間，本地 AI 繪圖和影片工具幾乎預設圍繞 NVIDIA CUDA 展開。Stable Diffusion、ComfyUI、AnimateDiff、影片超分、LLM 推理和各種外掛，大多優先適配 CUDA。AMD 顯卡雖然顯存性價比不錯，但在 Windows 上經常要繞 DirectML、ZLUDA、Linux ROCm 或社群補丁，穩定性和教學一致性都不如 NVIDIA。

ROCm 7.2 系列讓這個局面有了明顯變化。AMD 在 CES 2026 期間發布 Ryzen AI 400 系列，並把 ROCm、Radeon、Ryzen AI 和 Windows AI 工作流放到同一條線上。官方文件顯示，ROCm 7.2.1 已經面向 Windows 更新 AMD Radeon 和 Ryzen AI 處理器上的 PyTorch 支援，ComfyUI Desktop 也從 v0.7.0 開始提供官方 AMD ROCm 支援。

這不代表 AMD 已經完全追平 CUDA 生態，但至少說明一件事：在 Windows 上用 AMD 顯卡跑 ComfyUI，正在從「折騰型方案」變成「可認真評估的方案」。

ROCm 7.2 系列帶來了什麼

ROCm 是 AMD 面向 GPU 計算和機器學習的開放軟體堆疊，定位上對應 NVIDIA CUDA。它包括 HIP、編譯器、數學庫、深度學習庫、Profiler、PyTorch 適配和一系列底層元件。

ROCm 7.2 系列對桌面使用者最值得關注的變化有三點。

第一，Windows 支援更正式。AMD 的 Radeon/Ryzen ROCm 文件寫明，Windows 上的 PyTorch 已經更新到 ROCm 7.2.1，覆蓋 AMD Radeon 圖形產品和 AMD Ryzen AI 處理器。這對 ComfyUI、Hugging Face Transformers 和本地推理工具很關鍵，因為大多數上層工具最終都要落到 PyTorch。

第二，硬體支援範圍更清楚。官方文件提到，ROCm 7.2.1 支援 Radeon 9000 系列、部分 Radeon 7000 系列，以及 Ryzen AI Max 300、部分 Ryzen AI 400 和部分 Ryzen AI 300 APU。也就是說，不能看到「AMD 顯卡」就預設全部支援，具體型號仍要查相容矩陣。

第三，ComfyUI 有了官方入口。ComfyUI 官方部落格在 2026 年 1 月宣布，Windows ComfyUI Desktop 從 v0.7.0 起支援 AMD ROCm。這對普通使用者很重要，因為它減少了手動裝環境、找 wheel、改啟動參數的成本。

對想找 CUDA 平替的人來說，這些變化比單純跑分更重要。AI 工具能不能長期使用，取決於驅動、框架、模型、外掛和前端是否能穩定連起來。

哪些硬體更適合

目前 AMD 路線要分成三類看。

第一類是 Radeon 9000 系列。這是 ROCm 7.2 系列重點覆蓋的新一代獨顯，優先級最高。如果你現在才準備買 AMD 顯卡跑本地 AI，優先看這類型號。

第二類是部分 Radeon 7000 系列。它們屬於 RDNA 3，已有一定 ROCm 支援基礎，但不是所有型號都同等穩定。買之前必須查 AMD 官方相容矩陣，尤其要確認 Windows、Linux、PyTorch 和目標工具是否同時支援。

第三類是 Ryzen AI APU。Ryzen AI 400 系列和 Ryzen AI Max 300 系列的意義在於把 CPU、GPU、NPU 和共享記憶體帶進輕薄筆電、小主機和開發設備。它們更適合輕量推理、開發測試、行動辦公和小規模 ComfyUI 工作流，不適合和高階獨顯硬拼大模型吞吐。

如果目標是流暢跑主流 AI 繪圖，獨顯仍然更穩。APU 的優勢是整合度和共享記憶體，適合嘗鮮與便攜，不適合承擔重型影片生成或大批量出圖。

Windows 下推薦路線

普通使用者在 Windows 上跑 ComfyUI，建議優先使用 ComfyUI Desktop。原因很簡單：它是官方支援路徑，能減少環境衝突，也更容易跟隨上游更新。

大致流程可以這樣理解：

確認系統是 Windows 11，並更新 AMD Software: Adrenalin Edition。
確認顯卡或 APU 在 AMD ROCm Radeon/Ryzen 相容矩陣內。
安裝 ComfyUI Desktop v0.7.0 或更新版本。
讓 ComfyUI Desktop 使用 AMD ROCm 後端。
首次啟動後檢查控制台裡的 PyTorch/ROCm 資訊。
先用基礎 SDXL 或 Flux 工作流測試，再逐步安裝外掛。

如果使用手動版 ComfyUI，思路也類似：先裝 Python，再裝對應 ROCm 7.2 系列的 PyTorch，然後啟動 main.py。AMD 官方 ComfyUI 安裝文件提醒，執行後要確認終端裡顯示的是 ROCm 7.2.1 對應的 PyTorch 版本。

低顯存設備可以加啟動參數：

`1`	`python main.py --lowvram --disable-pinned-memory`

這兩個參數不一定提升速度，但能減少部分記憶體和顯存壓力。對 8GB、12GB 或共享記憶體設備，先保證能穩定跑完，比追求單次出圖速度更重要。

Linux 仍然更適合重度使用者

ROCm 在 Windows 上變得更可用了，但 Linux 仍然是 AMD AI 工作流更成熟的環境。官方文件也顯示，Radeon 在 Linux 上支援的框架更完整，包括 PyTorch、TensorFlow、JAX、ONNX、vLLM、Llama.cpp 和部分訓練能力。

如果你的需求只是 ComfyUI 出圖，Windows 已經值得嘗試。
如果你還要跑 vLLM、訓練 LoRA、批量影片生成、多卡、Docker、自動化腳本和長期服務，Linux 仍然更合適。

可以按需求選擇：

Windows：適合桌面使用者、ComfyUI Desktop、輕量繪圖、本地嘗鮮。
Linux：適合開發者、重度 AI 使用者、伺服器、批處理和更完整 ROCm 生態。
WSL：適合想留在 Windows 但需要 Linux 工具鏈的人，不過要確認 ROCDXG、驅動和硬體是否在支援範圍內。

不要把 Windows ROCm 當成所有問題的答案。它解決的是入門門檻和桌面體驗，重度生產仍要看 Linux 支援。

ComfyUI 外掛相容要謹慎

ComfyUI 的麻煩不只在主程式，而在外掛生態。很多節點預設按 CUDA、xFormers、Triton、FlashAttention 或特定 PyTorch 擴展來寫。換到 AMD ROCm 後，常見問題包括：

外掛調用了 CUDA-only 擴展。
某些加速庫沒有 ROCm wheel。
自訂節點安裝腳本預設檢查 NVIDIA 環境。
影片節點依賴的編解碼或光流庫不支援 AMD。
新模型工作流預設使用 NVIDIA 最佳化配置。

因此，不建議一開始就把舊的 NVIDIA ComfyUI 整個目錄搬過來。更穩的做法是先裝乾淨環境，跑通基礎模型，再逐個加外掛。

推薦測試順序：

基礎文生圖。
圖生圖。
LoRA。
ControlNet。
放大和高清修復。
AnimateDiff 或影片節點。
Flux、SD3、Wan、HunyuanVideo 等更重模型。

每加一類外掛都做一次小測試。哪一步壞了，就能知道問題大機率來自哪個節點或依賴。

AMD 顯卡跑 AI 繪圖的優勢

AMD 路線最大的吸引力是顯存和價格。很多使用者選擇 AMD，不是因為它在 AI 軟體生態上已經比 CUDA 更省心，而是因為同價位顯存更大，適合本地創作和長時間試驗。

大顯存對 ComfyUI 很實際：

可以跑更大的 checkpoint。
可以提高解析度。
可以載入更多 LoRA、ControlNet 和參考圖節點。
可以減少低顯存模式帶來的速度損失。
影片生成和批量出圖更不容易爆顯存。

如果 ROCm 7.2 系列能讓 Windows 上的 PyTorch 和 ComfyUI 穩定跑起來，AMD 顯卡就會成為更現實的 CUDA 平替，尤其適合不想上雲、又想保留較大本地顯存的人。

仍然要接受的限制

AMD 路線現在能用，但還不是「無腦替代 CUDA」。

主要限制包括：

支援型號有限，老卡和部分中低階卡不一定在官方列表內。
Windows 上框架支援仍少於 Linux。
很多 AI 教學仍預設 NVIDIA。
部分 ComfyUI 外掛只測過 CUDA。
遇到報錯時，社群答案比 NVIDIA 少。
同一模型在不同後端的效能差異可能很大。

所以選 AMD 路線前，最好先確認三個問題：

你的顯卡是否在官方相容矩陣裡。
你的主要工具是否明確支援 ROCm。
你的核心外掛是否依賴 CUDA-only 擴展。

如果這三個問題都能接受，AMD 才是可靠選擇。否則，省下來的硬體成本可能會被環境排錯時間抵消。

小結

ROCm 7.2 系列讓 AMD 在 Windows 本地 AI 上前進了一大步。Radeon 和 Ryzen AI 的 PyTorch 支援更明確，ComfyUI Desktop 也開始提供官方 ROCm 支援，這讓 AMD 顯卡第一次真正接近普通使用者可接受的 CUDA 平替體驗。

但「可用」不等於「全相容」。目前最穩的策略是：先查相容矩陣，再走官方安裝路徑，先跑基礎 ComfyUI，再逐步添加外掛和複雜影片工作流。Windows 適合輕量和桌面創作，Linux 仍適合重度開發和生產。

如果你追求最省心，CUDA 仍然是主流答案。
如果你願意為更大顯存和開放生態多做一點驗證，ROCm 7.2 + ComfyUI 已經值得認真嘗試。

參考資料

Pixelle-Video：一句主題生成短影片的開源 AI 引擎

Thu, 07 May 2026 20:25:17 +0800

Pixelle-Video 是 AIDC-AI 開源的全自動短影片生成引擎。它的目標很直白：使用者輸入一個主題，系統自動完成影片文案、AI 配圖或影片、語音解說、背景音樂和最終合成。

這類工具適合短影片批量創作、知識科普、口播內容、小說解說、歷史文化類影片和自媒體素材實驗。它不是單一的「文生影片模型」，而是把多種 AI 能力接成一條生產流水線。

它能自動做什麼

Pixelle-Video 的預設流程可以概括為：

輸入主題或固定文案；
由大型語言模型生成解說詞；
根據分鏡規劃生成配圖或影片素材；
使用 TTS 生成語音解說；
添加背景音樂；
套用影片模板並合成最終成片。

README 中給出的流程是「文案生成 → 配圖規劃 → 逐幀處理 → 影片合成」。這種模組化設計的好處是清晰：每一步都可以替換模型、調整參數或改用自訂工作流。

功能亮點

專案支援的能力相當完整：

AI 智慧文案：根據主題自動生成影片解說詞；
AI 配圖：為每句話或每個分鏡生成插圖；
AI 影片生成：支援接入 WAN 2.1 等影片生成模型；
TTS 語音：支援 Edge-TTS、Index-TTS 等方案；
背景音樂：可以使用內建 BGM，也可以放入自訂音樂；
多尺寸輸出：支援直式、橫式等不同影片比例；
多模型選擇：可接入 GPT、通義千問、DeepSeek、Ollama 等；
ComfyUI 工作流：可以使用預置工作流，也可以替換生圖、TTS、影片生成等環節。

最近更新裡還提到動作遷移、數位人口播、圖生影片、多語言 TTS 音色、RunningHub 支援、Windows 一鍵整合包等內容。這說明專案已經不只是一個腳本，而是在往完整創作工具方向發展。

安裝和啟動方式

Windows 使用者可以優先看官方提供的一鍵整合包。它的定位是降低安裝門檻，不需要手動準備 Python、uv 或 ffmpeg，解壓後執行 start.bat，再在瀏覽器裡打開 Web 介面配置 API 和圖像生成服務。

如果從源碼啟動，README 給出的基本方式是：

1
2
3

git clone https://github.com/AIDC-AI/Pixelle-Video.git
cd Pixelle-Video
uv run streamlit run web/app.py

源碼方式適合 macOS、Linux 使用者，也適合需要修改模板、工作流或服務配置的人。前置依賴主要是 uv 和 ffmpeg。

配置重點

第一次使用時，關鍵不是先點「生成」，而是把幾個外部能力接好。

LLM 配置決定文案品質。你可以選擇通義千問、GPT、DeepSeek、Ollama 等模型，並填寫對應的 API Key、Base URL 和模型名。如果想盡量降低成本，本地 Ollama 是一個方向；如果追求穩定效果，雲端模型會更省心。

圖像和影片生成配置決定畫面品質。專案支援本地 ComfyUI，也支援 RunningHub。懂 ComfyUI 的使用者可以把自己的工作流放進 workflows/ 目錄，用來替換預設生圖、影片或 TTS 流程。

模板配置決定最終成片的視覺形態。專案用 templates/ 目錄組織影片模板，靜態模板、圖片模板和影片模板按命名規則區分。對內容創作者來說，這比只生成一段素材更實用，因為最終交付物是可以直接預覽和下載的影片。

適合什麼人

Pixelle-Video 比較適合三類使用者：

短影片創作者：想快速把選題變成可發布的草稿影片；
AIGC 工具玩家：想把 LLM、ComfyUI、TTS 和影片合成串起來；
開發者和自動化使用者：想基於開源專案改模板、改工作流，甚至接入自己的素材和模型。

如果你只想偶爾做一支高品質精品影片，它未必能直接替代人工剪輯；但如果你想批量生成結構一致的解釋類、口播類、科普類內容，它的流水線思路很有價值。

需要注意的地方

這類工具的上限由多個環節共同決定。文案模型不好，內容會空；配圖模型不好，畫面會散；TTS 不自然，影片會顯得粗糙；模板不合適，最終成片也會缺少辨識度。

所以使用 Pixelle-Video 時，建議先從一個固定場景開始調試，比如「60 秒知識科普直式影片」。把 LLM、畫面風格、TTS 音色、BGM 和模板固定下來，再逐步擴大到其他主題。

另外，專案雖然支援本地免費方案，但本地方案通常需要顯卡、ComfyUI 配置和模型檔案。沒有本地推理環境的使用者，可以用雲端 LLM 加 RunningHub 的方式降低部署難度，但要留意呼叫成本。

簡短判斷

Pixelle-Video 的看點不只是「輸入一句話生成影片」，而是它把短影片生產拆成可替換的模組：文案、畫面、語音、音樂、模板和合成。對普通使用者，它是一個低門檻 AI 影片工具；對開發者，它更像一個可改造的短影片自動化框架。

如果你正在研究 AI 短影片流水線，或者想把 ComfyUI、TTS、LLM 和模板合成串成一個可用產品，Pixelle-Video 值得試用和拆解。

ComfyUI on KnightLi的博客

筆記型電腦 RTX 4060 8GB 適合跑哪些本地 AI 模型

顯存預算

LLM：3B-8B 量化模型

全能輕量：Gemma 4 E4B

推理與長文本：DeepSeek R1 Distill 7B/8B、Qwen 3 8B

程式碼：Qwen 2.5 Coder 3B/7B

圖像生成

SD 1.5 和 SDXL

FLUX.1 schnell

多模態與效率工具

推薦組合

避坑

建議定位

參考資料

AMD ROCm 7.2 + ComfyUI 相容性配置：Windows 上的 CUDA 平替怎麼用

ROCm 7.2 系列帶來了什麼

哪些硬體更適合

Windows 下推薦路線

Linux 仍然更適合重度使用者

ComfyUI 外掛相容要謹慎

AMD 顯卡跑 AI 繪圖的優勢

仍然要接受的限制

推薦配置思路

小結

參考資料

Pixelle-Video：一句主題生成短影片的開源 AI 引擎

它能自動做什麼

功能亮點

安裝和啟動方式

配置重點

適合什麼人

需要注意的地方

簡短判斷