本地部署 DeepSeek V4:Pro、Flash 與 Base 版本顯存占用估算表

參考 Gemma 4 顯存表的寫法,整理 DeepSeek V4 Pro、Flash、Pro-Base、Flash-Base 在不同量化位寬下的權重體積和顯存門檻。

DeepSeek V4 和 Gemma 4 的本地部署不是一個量級。 Gemma 4 的 26B、31B 還能討論 24GB、32GB 顯卡怎麼選量化版;DeepSeek V4 則是超大 MoE 模型,真正完整本地部署時,顯存需求會直接進入多卡工作站或伺服器級別。

官方發布的 DeepSeek V4 Preview 主要包含兩個推理版本:

  • DeepSeek-V4-Pro1.6T total / 49B active params
  • DeepSeek-V4-Flash284B total / 13B active params

Hugging Face 官方 collection 裡還包含兩個 Base 版本:

  • DeepSeek-V4-Pro-Base
  • DeepSeek-V4-Flash-Base

這篇只討論完整載入模型權重時的大致顯存門檻。 MoE 的 active params 主要影響每個 token 的計算量,不等於只需要載入這部分參數。 如果沒有專家按需載入、CPU/NVMe offload、分散式推理或專門執行時最佳化,顯存仍然要按完整權重來估。

先看結論

顯存規模 能比較現實地嘗試什麼 不建議期待什麼
24GB 不能完整跑 DeepSeek V4;只能跑小型蒸餾模型或 API V4-Flash / V4-Pro 完整本地載入
48GB 仍不適合完整載入;可做小模型或遠端 API 用戶端 V4-Flash Q4 穩定執行
80GB 理論上可嘗試 V4-Flash Q2/Q3 或強 offload V4-Pro
128GB V4-Flash Q4 比較現實;Q5/Q6 仍緊 V4-Pro Q4
192GB V4-Flash FP8/Q6 更從容;Pro Q2 勉強進入討論 V4-Pro Q4
256GB V4-Flash FP8 比較穩;Pro Q2/Q3 可實驗 V4-Pro Q5 以上
512GB V4-Pro Q4 開始進入可討論範圍 V4-Pro FP8
1TB+ V4-Pro FP8、Pro-Base 低位寬更現實 單機低成本部署
2TB+ Pro-Base FP8 級別 普通工作站部署

如果你的目標是個人電腦本地執行,DeepSeek V4 並不是合適對象。 更現實的路線是:

  • 用 DeepSeek 官方 API 或相容服務;
  • 等社群穩定的 GGUF/EXL2/MLX 量化和推理支援;
  • 使用更小的 DeepSeek 蒸餾模型;
  • 或者把本地模型換成 Qwen、Gemma、Llama 等 7B 到 70B 級別模型。

官方權重體積

以下是 Hugging Face 官方倉庫的 model.safetensors.index.json 中統計到的權重總量。 它反映的是目前公開權重檔案大小,不等於長上下文執行時的完整顯存占用。

模型 參數規模 官方權重體積 說明
DeepSeek-V4-Flash 284B total / 13B active 159.61GB 推理版,體積相對最小
DeepSeek-V4-Pro 1.6T total / 49B active 864.70GB 推理版,能力更強,體積巨大
DeepSeek-V4-Flash-Base 284B total 294.67GB Base 版,更接近全量 FP8 權重體積
DeepSeek-V4-Pro-Base 1.6T total 1606.03GB Base 版,約 1.6TB 級別

可以看到,即使是最小的 V4-Flash,官方權重也已經接近 160GB。 這就是為什麼它不能按「13B active params」理解成 13B 小模型。

DeepSeek V4 Flash 顯存估算

V4-Flash 是 DeepSeek V4 裡最適合本地嘗試的一檔。 但「最適合」只是相對 Pro 而言,它仍然不是消費級單卡模型。

下面按官方 159.61GB 權重體積做折算。 其中 Q4/Q3/Q2 是按位寬估算,不代表目前已經有穩定可用的官方 GGUF 版本。

版本/量化 估算權重體積 最低顯存 更穩妥顯存 適合場景
FP8 / 官方權重 159.61GB 192GB 256GB 多卡伺服器、推理服務
Q6 120GB 160GB 192GB 品質優先的量化嘗試
Q5 100GB 128GB 160GB 品質和體積折中
Q4 80GB 96GB 128GB Flash 本地化較現實的起點
Q3 60GB 80GB 96GB 大顯存單卡或多卡實驗
Q2 40GB 48GB 64GB 極限低位寬實驗,品質風險明顯

如果未來社群出現成熟的 V4-Flash Q4,它大機率也不是 24GB 顯卡的模型。 更現實的硬體起點是 96GB 到 128GB 級別的總顯存,或者依賴 CPU 記憶體/offload 換速度。

DeepSeek V4 Pro 顯存估算

V4-Pro 是旗艦推理版,官方權重體積約 864.70GB。 即使做 4-bit 量化,完整權重也仍然是數百 GB 級別。

版本/量化 估算權重體積 最低顯存 更穩妥顯存 適合場景
FP8 / 官方權重 864.70GB 1TB 1.2TB+ 多機多卡推理服務
Q6 648GB 768GB 1TB 高品質量化服務
Q5 540GB 640GB 768GB 高品質與成本折中
Q4 432GB 512GB 640GB Pro 本地化較現實的最低品質線
Q3 324GB 384GB 512GB 低位寬實驗
Q2 216GB 256GB 320GB 極限實驗,品質和穩定性風險高

對個人使用者來說,V4-Pro 更適合透過 API 使用。 如果目標是完整本地部署,至少要把它當成多卡伺服器模型,而不是 4090、5090、RTX PRO 單卡模型。

DeepSeek V4 Flash-Base 顯存估算

Base 版通常用於研究、微調或繼續訓練,不是普通聊天部署的首選。 V4-Flash-Base 官方權重體積約 294.67GB。

版本/量化 估算權重體積 最低顯存 更穩妥顯存 適合場景
FP8 / 官方權重 294.67GB 384GB 512GB 研究、訓練前處理、評測
Q6 221GB 256GB 320GB 高品質量化研究
Q5 184GB 224GB 256GB 品質和體積折中
Q4 147GB 192GB 224GB Base 版低成本實驗
Q3 111GB 128GB 160GB 低位寬實驗
Q2 74GB 96GB 128GB 極限實驗

如果只是要使用 DeepSeek V4 能力,不建議從 Base 版開始。 Base 版的部署和調優成本更高,普通應用更適合推理版或 API。

DeepSeek V4 Pro-Base 顯存估算

V4-Pro-Base 是最重的一檔,官方權重體積約 1606.03GB。 這已經是 1.6TB 級別的模型檔案。

版本/量化 估算權重體積 最低顯存 更穩妥顯存 適合場景
FP8 / 官方權重 1606.03GB 2TB 2.4TB+ 大規模研究叢集
Q6 1205GB 1.5TB 2TB 高品質量化研究
Q5 1004GB 1.2TB 1.5TB 研究與評測
Q4 803GB 1TB 1.2TB 低位寬研究
Q3 602GB 768GB 1TB 極限低位寬研究
Q2 402GB 512GB 640GB 極限實驗

這類模型不適合被放進「家用顯卡能不能跑」的框架裡討論。 哪怕是 Q4,也已經超過絕大多數單機工作站的舒適範圍。

為什麼不能只看 active params

DeepSeek V4 是 MoE 模型。 MoE 的特點是每個 token 只啟用一部分專家,因此計算量會明顯低於總參數量。 但這不等於顯存只需要放 active params。

完整本地推理通常還要考慮:

  • 所有專家權重是否需要常駐 GPU;
  • 是否支援按需專家載入;
  • CPU 記憶體與 GPU 顯存之間的資料搬運成本;
  • NVMe offload 的延遲;
  • KV cache 在長上下文下的增長;
  • 1M context 場景下的額外執行時開銷;
  • 多機多卡通訊成本。

所以,49B activeV4-Pro 不能當成 49B 模型來部署。 13B activeV4-Flash 也不能當成 13B 小模型來部署。

怎麼選

如果你只是普通個人使用者:

  • 不建議完整本地部署 DeepSeek V4。
  • 需要 DeepSeek V4 能力時,優先用官方 API。
  • 需要本地私有化時,優先看是否有成熟推理服務商或內部多卡伺服器。
  • 只有 24GB 到 48GB 顯存時,轉向 7B、14B、32B、70B 級別量化模型更實際。

如果你有 128GB 到 256GB 總顯存:

  • 可以關注 V4-Flash Q4/Q5 是否有穩定社群實作。
  • 不建議把 V4-Pro 當成主力本地模型。

如果你有 512GB 以上總顯存:

  • V4-Pro Q4 才開始進入工程驗證範圍。
  • 仍然要關注推理框架、專家調度、KV cache、吞吐和並發。

DeepSeek V4 的本地部署重點不是「下載哪個量化檔案」,而是「有沒有足夠的系統級推理能力」。 它更接近一個伺服器模型,而不是普通桌面模型。

參考來源

记录并分享
使用 Hugo 建立
主題 StackJimmy 設計