本地部署 DeepSeek V4：Pro、Flash 與 Base 版本顯存占用估算表

Fri, 01 May 2026 11:55:25 +0800

DeepSeek V4 和 Gemma 4 的本地部署不是一個量級。 Gemma 4 的 26B、31B 還能討論 24GB、32GB 顯卡怎麼選量化版；DeepSeek V4 則是超大 MoE 模型，真正完整本地部署時，顯存需求會直接進入多卡工作站或伺服器級別。

官方發布的 DeepSeek V4 Preview 主要包含兩個推理版本：

DeepSeek-V4-Pro：1.6T total / 49B active params
DeepSeek-V4-Flash：284B total / 13B active params

Hugging Face 官方 collection 裡還包含兩個 Base 版本：

DeepSeek-V4-Pro-Base
DeepSeek-V4-Flash-Base

這篇只討論完整載入模型權重時的大致顯存門檻。 MoE 的 active params 主要影響每個 token 的計算量，不等於只需要載入這部分參數。如果沒有專家按需載入、CPU/NVMe offload、分散式推理或專門執行時最佳化，顯存仍然要按完整權重來估。

先看結論

顯存規模	能比較現實地嘗試什麼	不建議期待什麼
24GB	不能完整跑 DeepSeek V4；只能跑小型蒸餾模型或 API	V4-Flash / V4-Pro 完整本地載入
48GB	仍不適合完整載入；可做小模型或遠端 API 用戶端	V4-Flash Q4 穩定執行
80GB	理論上可嘗試 V4-Flash Q2/Q3 或強 offload	V4-Pro
128GB	V4-Flash Q4 比較現實；Q5/Q6 仍緊	V4-Pro Q4
192GB	V4-Flash FP8/Q6 更從容；Pro Q2 勉強進入討論	V4-Pro Q4
256GB	V4-Flash FP8 比較穩；Pro Q2/Q3 可實驗	V4-Pro Q5 以上
512GB	V4-Pro Q4 開始進入可討論範圍	V4-Pro FP8
1TB+	V4-Pro FP8、Pro-Base 低位寬更現實	單機低成本部署
2TB+	Pro-Base FP8 級別	普通工作站部署

如果你的目標是個人電腦本地執行，DeepSeek V4 並不是合適對象。更現實的路線是：

用 DeepSeek 官方 API 或相容服務；
等社群穩定的 GGUF/EXL2/MLX 量化和推理支援；
使用更小的 DeepSeek 蒸餾模型；
或者把本地模型換成 Qwen、Gemma、Llama 等 7B 到 70B 級別模型。

官方權重體積

以下是 Hugging Face 官方倉庫的 model.safetensors.index.json 中統計到的權重總量。它反映的是目前公開權重檔案大小，不等於長上下文執行時的完整顯存占用。

模型	參數規模	官方權重體積	說明
`DeepSeek-V4-Flash`	284B total / 13B active	159.61GB	推理版，體積相對最小
`DeepSeek-V4-Pro`	1.6T total / 49B active	864.70GB	推理版，能力更強，體積巨大
`DeepSeek-V4-Flash-Base`	284B total	294.67GB	Base 版，更接近全量 FP8 權重體積
`DeepSeek-V4-Pro-Base`	1.6T total	1606.03GB	Base 版，約 1.6TB 級別

可以看到，即使是最小的 V4-Flash，官方權重也已經接近 160GB。這就是為什麼它不能按「13B active params」理解成 13B 小模型。

DeepSeek V4 Flash 顯存估算

V4-Flash 是 DeepSeek V4 裡最適合本地嘗試的一檔。但「最適合」只是相對 Pro 而言，它仍然不是消費級單卡模型。

下面按官方 159.61GB 權重體積做折算。其中 Q4/Q3/Q2 是按位寬估算，不代表目前已經有穩定可用的官方 GGUF 版本。

版本/量化	估算權重體積	最低顯存	更穩妥顯存	適合場景
`FP8 / 官方權重`	159.61GB	192GB	256GB	多卡伺服器、推理服務
`Q6`	120GB	160GB	192GB	品質優先的量化嘗試
`Q5`	100GB	128GB	160GB	品質和體積折中
`Q4`	80GB	96GB	128GB	Flash 本地化較現實的起點
`Q3`	60GB	80GB	96GB	大顯存單卡或多卡實驗
`Q2`	40GB	48GB	64GB	極限低位寬實驗，品質風險明顯

如果未來社群出現成熟的 V4-Flash Q4，它大機率也不是 24GB 顯卡的模型。更現實的硬體起點是 96GB 到 128GB 級別的總顯存，或者依賴 CPU 記憶體/offload 換速度。

DeepSeek V4 Pro 顯存估算

V4-Pro 是旗艦推理版，官方權重體積約 864.70GB。即使做 4-bit 量化，完整權重也仍然是數百 GB 級別。

版本/量化	估算權重體積	最低顯存	更穩妥顯存	適合場景
`FP8 / 官方權重`	864.70GB	1TB	1.2TB+	多機多卡推理服務
`Q6`	648GB	768GB	1TB	高品質量化服務
`Q5`	540GB	640GB	768GB	高品質與成本折中
`Q4`	432GB	512GB	640GB	Pro 本地化較現實的最低品質線
`Q3`	324GB	384GB	512GB	低位寬實驗
`Q2`	216GB	256GB	320GB	極限實驗，品質和穩定性風險高

對個人使用者來說，V4-Pro 更適合透過 API 使用。如果目標是完整本地部署，至少要把它當成多卡伺服器模型，而不是 4090、5090、RTX PRO 單卡模型。

DeepSeek V4 Flash-Base 顯存估算

Base 版通常用於研究、微調或繼續訓練，不是普通聊天部署的首選。 V4-Flash-Base 官方權重體積約 294.67GB。

版本/量化	估算權重體積	最低顯存	更穩妥顯存	適合場景
`FP8 / 官方權重`	294.67GB	384GB	512GB	研究、訓練前處理、評測
`Q6`	221GB	256GB	320GB	高品質量化研究
`Q5`	184GB	224GB	256GB	品質和體積折中
`Q4`	147GB	192GB	224GB	Base 版低成本實驗
`Q3`	111GB	128GB	160GB	低位寬實驗
`Q2`	74GB	96GB	128GB	極限實驗

如果只是要使用 DeepSeek V4 能力，不建議從 Base 版開始。 Base 版的部署和調優成本更高，普通應用更適合推理版或 API。

DeepSeek V4 Pro-Base 顯存估算

V4-Pro-Base 是最重的一檔，官方權重體積約 1606.03GB。這已經是 1.6TB 級別的模型檔案。

版本/量化	估算權重體積	最低顯存	更穩妥顯存	適合場景
`FP8 / 官方權重`	1606.03GB	2TB	2.4TB+	大規模研究叢集
`Q6`	1205GB	1.5TB	2TB	高品質量化研究
`Q5`	1004GB	1.2TB	1.5TB	研究與評測
`Q4`	803GB	1TB	1.2TB	低位寬研究
`Q3`	602GB	768GB	1TB	極限低位寬研究
`Q2`	402GB	512GB	640GB	極限實驗

這類模型不適合被放進「家用顯卡能不能跑」的框架裡討論。哪怕是 Q4，也已經超過絕大多數單機工作站的舒適範圍。

為什麼不能只看 active params

DeepSeek V4 是 MoE 模型。 MoE 的特點是每個 token 只啟用一部分專家，因此計算量會明顯低於總參數量。但這不等於顯存只需要放 active params。

完整本地推理通常還要考慮：

所有專家權重是否需要常駐 GPU；
是否支援按需專家載入；
CPU 記憶體與 GPU 顯存之間的資料搬運成本；
NVMe offload 的延遲；
KV cache 在長上下文下的增長；
1M context 場景下的額外執行時開銷；
多機多卡通訊成本。

所以，49B active 的 V4-Pro 不能當成 49B 模型來部署。 13B active 的 V4-Flash 也不能當成 13B 小模型來部署。

怎麼選

如果你只是普通個人使用者：

不建議完整本地部署 DeepSeek V4。
需要 DeepSeek V4 能力時，優先用官方 API。
需要本地私有化時，優先看是否有成熟推理服務商或內部多卡伺服器。
只有 24GB 到 48GB 顯存時，轉向 7B、14B、32B、70B 級別量化模型更實際。

如果你有 128GB 到 256GB 總顯存：

可以關注 V4-Flash Q4/Q5 是否有穩定社群實作。
不建議把 V4-Pro 當成主力本地模型。

如果你有 512GB 以上總顯存：

V4-Pro Q4 才開始進入工程驗證範圍。
仍然要關注推理框架、專家調度、KV cache、吞吐和並發。

DeepSeek V4 的本地部署重點不是「下載哪個量化檔案」，而是「有沒有足夠的系統級推理能力」。它更接近一個伺服器模型，而不是普通桌面模型。

MoE on KnightLi的博客