DeepSeek V4 和 Gemma 4 的本地部署不是一個量級。 Gemma 4 的 26B、31B 還能討論 24GB、32GB 顯卡怎麼選量化版;DeepSeek V4 則是超大 MoE 模型,真正完整本地部署時,顯存需求會直接進入多卡工作站或伺服器級別。
官方發布的 DeepSeek V4 Preview 主要包含兩個推理版本:
DeepSeek-V4-Pro:1.6T total / 49B active paramsDeepSeek-V4-Flash:284B total / 13B active params
Hugging Face 官方 collection 裡還包含兩個 Base 版本:
DeepSeek-V4-Pro-BaseDeepSeek-V4-Flash-Base
這篇只討論完整載入模型權重時的大致顯存門檻。
MoE 的 active params 主要影響每個 token 的計算量,不等於只需要載入這部分參數。
如果沒有專家按需載入、CPU/NVMe offload、分散式推理或專門執行時最佳化,顯存仍然要按完整權重來估。
先看結論
| 顯存規模 | 能比較現實地嘗試什麼 | 不建議期待什麼 |
|---|---|---|
| 24GB | 不能完整跑 DeepSeek V4;只能跑小型蒸餾模型或 API | V4-Flash / V4-Pro 完整本地載入 |
| 48GB | 仍不適合完整載入;可做小模型或遠端 API 用戶端 | V4-Flash Q4 穩定執行 |
| 80GB | 理論上可嘗試 V4-Flash Q2/Q3 或強 offload | V4-Pro |
| 128GB | V4-Flash Q4 比較現實;Q5/Q6 仍緊 | V4-Pro Q4 |
| 192GB | V4-Flash FP8/Q6 更從容;Pro Q2 勉強進入討論 | V4-Pro Q4 |
| 256GB | V4-Flash FP8 比較穩;Pro Q2/Q3 可實驗 | V4-Pro Q5 以上 |
| 512GB | V4-Pro Q4 開始進入可討論範圍 | V4-Pro FP8 |
| 1TB+ | V4-Pro FP8、Pro-Base 低位寬更現實 | 單機低成本部署 |
| 2TB+ | Pro-Base FP8 級別 | 普通工作站部署 |
如果你的目標是個人電腦本地執行,DeepSeek V4 並不是合適對象。 更現實的路線是:
- 用 DeepSeek 官方 API 或相容服務;
- 等社群穩定的 GGUF/EXL2/MLX 量化和推理支援;
- 使用更小的 DeepSeek 蒸餾模型;
- 或者把本地模型換成 Qwen、Gemma、Llama 等 7B 到 70B 級別模型。
官方權重體積
以下是 Hugging Face 官方倉庫的 model.safetensors.index.json 中統計到的權重總量。
它反映的是目前公開權重檔案大小,不等於長上下文執行時的完整顯存占用。
| 模型 | 參數規模 | 官方權重體積 | 說明 |
|---|---|---|---|
DeepSeek-V4-Flash |
284B total / 13B active | 159.61GB | 推理版,體積相對最小 |
DeepSeek-V4-Pro |
1.6T total / 49B active | 864.70GB | 推理版,能力更強,體積巨大 |
DeepSeek-V4-Flash-Base |
284B total | 294.67GB | Base 版,更接近全量 FP8 權重體積 |
DeepSeek-V4-Pro-Base |
1.6T total | 1606.03GB | Base 版,約 1.6TB 級別 |
可以看到,即使是最小的 V4-Flash,官方權重也已經接近 160GB。
這就是為什麼它不能按「13B active params」理解成 13B 小模型。
DeepSeek V4 Flash 顯存估算
V4-Flash 是 DeepSeek V4 裡最適合本地嘗試的一檔。
但「最適合」只是相對 Pro 而言,它仍然不是消費級單卡模型。
下面按官方 159.61GB 權重體積做折算。 其中 Q4/Q3/Q2 是按位寬估算,不代表目前已經有穩定可用的官方 GGUF 版本。
| 版本/量化 | 估算權重體積 | 最低顯存 | 更穩妥顯存 | 適合場景 |
|---|---|---|---|---|
FP8 / 官方權重 |
159.61GB | 192GB | 256GB | 多卡伺服器、推理服務 |
Q6 |
120GB | 160GB | 192GB | 品質優先的量化嘗試 |
Q5 |
100GB | 128GB | 160GB | 品質和體積折中 |
Q4 |
80GB | 96GB | 128GB | Flash 本地化較現實的起點 |
Q3 |
60GB | 80GB | 96GB | 大顯存單卡或多卡實驗 |
Q2 |
40GB | 48GB | 64GB | 極限低位寬實驗,品質風險明顯 |
如果未來社群出現成熟的 V4-Flash Q4,它大機率也不是 24GB 顯卡的模型。
更現實的硬體起點是 96GB 到 128GB 級別的總顯存,或者依賴 CPU 記憶體/offload 換速度。
DeepSeek V4 Pro 顯存估算
V4-Pro 是旗艦推理版,官方權重體積約 864.70GB。
即使做 4-bit 量化,完整權重也仍然是數百 GB 級別。
| 版本/量化 | 估算權重體積 | 最低顯存 | 更穩妥顯存 | 適合場景 |
|---|---|---|---|---|
FP8 / 官方權重 |
864.70GB | 1TB | 1.2TB+ | 多機多卡推理服務 |
Q6 |
648GB | 768GB | 1TB | 高品質量化服務 |
Q5 |
540GB | 640GB | 768GB | 高品質與成本折中 |
Q4 |
432GB | 512GB | 640GB | Pro 本地化較現實的最低品質線 |
Q3 |
324GB | 384GB | 512GB | 低位寬實驗 |
Q2 |
216GB | 256GB | 320GB | 極限實驗,品質和穩定性風險高 |
對個人使用者來說,V4-Pro 更適合透過 API 使用。
如果目標是完整本地部署,至少要把它當成多卡伺服器模型,而不是 4090、5090、RTX PRO 單卡模型。
DeepSeek V4 Flash-Base 顯存估算
Base 版通常用於研究、微調或繼續訓練,不是普通聊天部署的首選。
V4-Flash-Base 官方權重體積約 294.67GB。
| 版本/量化 | 估算權重體積 | 最低顯存 | 更穩妥顯存 | 適合場景 |
|---|---|---|---|---|
FP8 / 官方權重 |
294.67GB | 384GB | 512GB | 研究、訓練前處理、評測 |
Q6 |
221GB | 256GB | 320GB | 高品質量化研究 |
Q5 |
184GB | 224GB | 256GB | 品質和體積折中 |
Q4 |
147GB | 192GB | 224GB | Base 版低成本實驗 |
Q3 |
111GB | 128GB | 160GB | 低位寬實驗 |
Q2 |
74GB | 96GB | 128GB | 極限實驗 |
如果只是要使用 DeepSeek V4 能力,不建議從 Base 版開始。 Base 版的部署和調優成本更高,普通應用更適合推理版或 API。
DeepSeek V4 Pro-Base 顯存估算
V4-Pro-Base 是最重的一檔,官方權重體積約 1606.03GB。
這已經是 1.6TB 級別的模型檔案。
| 版本/量化 | 估算權重體積 | 最低顯存 | 更穩妥顯存 | 適合場景 |
|---|---|---|---|---|
FP8 / 官方權重 |
1606.03GB | 2TB | 2.4TB+ | 大規模研究叢集 |
Q6 |
1205GB | 1.5TB | 2TB | 高品質量化研究 |
Q5 |
1004GB | 1.2TB | 1.5TB | 研究與評測 |
Q4 |
803GB | 1TB | 1.2TB | 低位寬研究 |
Q3 |
602GB | 768GB | 1TB | 極限低位寬研究 |
Q2 |
402GB | 512GB | 640GB | 極限實驗 |
這類模型不適合被放進「家用顯卡能不能跑」的框架裡討論。 哪怕是 Q4,也已經超過絕大多數單機工作站的舒適範圍。
為什麼不能只看 active params
DeepSeek V4 是 MoE 模型。 MoE 的特點是每個 token 只啟用一部分專家,因此計算量會明顯低於總參數量。 但這不等於顯存只需要放 active params。
完整本地推理通常還要考慮:
- 所有專家權重是否需要常駐 GPU;
- 是否支援按需專家載入;
- CPU 記憶體與 GPU 顯存之間的資料搬運成本;
- NVMe offload 的延遲;
- KV cache 在長上下文下的增長;
- 1M context 場景下的額外執行時開銷;
- 多機多卡通訊成本。
所以,49B active 的 V4-Pro 不能當成 49B 模型來部署。
13B active 的 V4-Flash 也不能當成 13B 小模型來部署。
怎麼選
如果你只是普通個人使用者:
- 不建議完整本地部署 DeepSeek V4。
- 需要 DeepSeek V4 能力時,優先用官方 API。
- 需要本地私有化時,優先看是否有成熟推理服務商或內部多卡伺服器。
- 只有 24GB 到 48GB 顯存時,轉向 7B、14B、32B、70B 級別量化模型更實際。
如果你有 128GB 到 256GB 總顯存:
- 可以關注
V4-Flash Q4/Q5是否有穩定社群實作。 - 不建議把
V4-Pro當成主力本地模型。
如果你有 512GB 以上總顯存:
V4-Pro Q4才開始進入工程驗證範圍。- 仍然要關注推理框架、專家調度、KV cache、吞吐和並發。
DeepSeek V4 的本地部署重點不是「下載哪個量化檔案」,而是「有沒有足夠的系統級推理能力」。 它更接近一個伺服器模型,而不是普通桌面模型。