本地部署 DeepSeek V4:Pro、Flash 与 Base 版本显存占用估算表

参考 Gemma 4 显存表的写法,整理 DeepSeek V4 Pro、Flash、Pro-Base、Flash-Base 在不同量化位宽下的权重体积和显存门槛。

DeepSeek V4 和 Gemma 4 的本地部署不是一个量级。 Gemma 4 的 26B、31B 还能讨论 24GB、32GB 显卡怎么选量化版;DeepSeek V4 则是超大 MoE 模型,真正完整本地部署时,显存需求会直接进入多卡工作站或服务器级别。

官方发布的 DeepSeek V4 Preview 主要包含两个推理版本:

  • DeepSeek-V4-Pro1.6T total / 49B active params
  • DeepSeek-V4-Flash284B total / 13B active params

Hugging Face 官方 collection 里还包含两个 Base 版本:

  • DeepSeek-V4-Pro-Base
  • DeepSeek-V4-Flash-Base

这篇只讨论完整加载模型权重时的大致显存门槛。 MoE 的 active params 主要影响每个 token 的计算量,不等于只需要加载这部分参数。 如果没有专家按需加载、CPU/NVMe offload、分布式推理或专门运行时优化,显存仍然要按完整权重来估。

先看结论

显存规模 能比较现实地尝试什么 不建议期待什么
24GB 不能完整跑 DeepSeek V4;只能跑小型蒸馏模型或 API V4-Flash / V4-Pro 完整本地加载
48GB 仍不适合完整加载;可做小模型或远程 API 客户端 V4-Flash Q4 稳定运行
80GB 理论上可尝试 V4-Flash Q2/Q3 或强 offload V4-Pro
128GB V4-Flash Q4 比较现实;Q5/Q6 仍紧 V4-Pro Q4
192GB V4-Flash FP8/Q6 更从容;Pro Q2 勉强进入讨论 V4-Pro Q4
256GB V4-Flash FP8 比较稳;Pro Q2/Q3 可实验 V4-Pro Q5 以上
512GB V4-Pro Q4 开始进入可讨论范围 V4-Pro FP8
1TB+ V4-Pro FP8、Pro-Base 低位宽更现实 单机低成本部署
2TB+ Pro-Base FP8 级别 普通工作站部署

如果你的目标是个人电脑本地运行,DeepSeek V4 并不是合适对象。 更现实的路线是:

  • 用 DeepSeek 官方 API 或兼容服务;
  • 等社区稳定的 GGUF/EXL2/MLX 量化和推理支持;
  • 使用更小的 DeepSeek 蒸馏模型;
  • 或者把本地模型换成 Qwen、Gemma、Llama 等 7B 到 70B 级别模型。

官方权重体积

以下是 Hugging Face 官方仓库的 model.safetensors.index.json 中统计到的权重总量。 它反映的是当前公开权重文件大小,不等于长上下文运行时的完整显存占用。

模型 参数规模 官方权重体积 说明
DeepSeek-V4-Flash 284B total / 13B active 159.61GB 推理版,体积相对最小
DeepSeek-V4-Pro 1.6T total / 49B active 864.70GB 推理版,能力更强,体积巨大
DeepSeek-V4-Flash-Base 284B total 294.67GB Base 版,更接近全量 FP8 权重体积
DeepSeek-V4-Pro-Base 1.6T total 1606.03GB Base 版,约 1.6TB 级别

可以看到,即使是最小的 V4-Flash,官方权重也已经接近 160GB。 这就是为什么它不能按“13B active params”理解成 13B 小模型。

DeepSeek V4 Flash 显存估算

V4-Flash 是 DeepSeek V4 里最适合本地尝试的一档。 但“最适合”只是相对 Pro 而言,它仍然不是消费级单卡模型。

下面按官方 159.61GB 权重体积做折算。 其中 Q4/Q3/Q2 是按位宽估算,不代表当前已经有稳定可用的官方 GGUF 版本。

版本/量化 估算权重体积 最低显存 更稳妥显存 适合场景
FP8 / 官方权重 159.61GB 192GB 256GB 多卡服务器、推理服务
Q6 120GB 160GB 192GB 质量优先的量化尝试
Q5 100GB 128GB 160GB 质量和体积折中
Q4 80GB 96GB 128GB Flash 本地化较现实的起点
Q3 60GB 80GB 96GB 大显存单卡或多卡实验
Q2 40GB 48GB 64GB 极限低位宽实验,质量风险明显

如果未来社区出现成熟的 V4-Flash Q4,它大概率也不是 24GB 显卡的模型。 更现实的硬件起点是 96GB 到 128GB 级别的总显存,或者依赖 CPU 内存/offload 换速度。

DeepSeek V4 Pro 显存估算

V4-Pro 是旗舰推理版,官方权重体积约 864.70GB。 即使做 4-bit 量化,完整权重也仍然是数百 GB 级别。

版本/量化 估算权重体积 最低显存 更稳妥显存 适合场景
FP8 / 官方权重 864.70GB 1TB 1.2TB+ 多机多卡推理服务
Q6 648GB 768GB 1TB 高质量量化服务
Q5 540GB 640GB 768GB 高质量与成本折中
Q4 432GB 512GB 640GB Pro 本地化较现实的最低质量线
Q3 324GB 384GB 512GB 低位宽实验
Q2 216GB 256GB 320GB 极限实验,质量和稳定性风险高

对个人用户来说,V4-Pro 更适合通过 API 使用。 如果目标是完整本地部署,至少要把它当成多卡服务器模型,而不是 4090、5090、RTX PRO 单卡模型。

DeepSeek V4 Flash-Base 显存估算

Base 版通常用于研究、微调或继续训练,不是普通聊天部署的首选。 V4-Flash-Base 官方权重体积约 294.67GB。

版本/量化 估算权重体积 最低显存 更稳妥显存 适合场景
FP8 / 官方权重 294.67GB 384GB 512GB 研究、训练前处理、评测
Q6 221GB 256GB 320GB 高质量量化研究
Q5 184GB 224GB 256GB 质量和体积折中
Q4 147GB 192GB 224GB Base 版低成本实验
Q3 111GB 128GB 160GB 低位宽实验
Q2 74GB 96GB 128GB 极限实验

如果只是要使用 DeepSeek V4 能力,不建议从 Base 版开始。 Base 版的部署和调优成本更高,普通应用更适合推理版或 API。

DeepSeek V4 Pro-Base 显存估算

V4-Pro-Base 是最重的一档,官方权重体积约 1606.03GB。 这已经是 1.6TB 级别的模型文件。

版本/量化 估算权重体积 最低显存 更稳妥显存 适合场景
FP8 / 官方权重 1606.03GB 2TB 2.4TB+ 大规模研究集群
Q6 1205GB 1.5TB 2TB 高质量量化研究
Q5 1004GB 1.2TB 1.5TB 研究与评测
Q4 803GB 1TB 1.2TB 低位宽研究
Q3 602GB 768GB 1TB 极限低位宽研究
Q2 402GB 512GB 640GB 极限实验

这类模型不适合被放进“家用显卡能不能跑”的框架里讨论。 哪怕是 Q4,也已经超过绝大多数单机工作站的舒适范围。

为什么不能只看 active params

DeepSeek V4 是 MoE 模型。 MoE 的特点是每个 token 只激活一部分专家,因此计算量会明显低于总参数量。 但这不等于显存只需要放 active params。

完整本地推理通常还要考虑:

  • 所有专家权重是否需要常驻 GPU;
  • 是否支持按需专家加载;
  • CPU 内存与 GPU 显存之间的数据搬运成本;
  • NVMe offload 的延迟;
  • KV cache 在长上下文下的增长;
  • 1M context 场景下的额外运行时开销;
  • 多机多卡通信成本。

所以,49B activeV4-Pro 不能当成 49B 模型来部署。 13B activeV4-Flash 也不能当成 13B 小模型来部署。

怎么选

如果你只是普通个人用户:

  • 不建议完整本地部署 DeepSeek V4。
  • 需要 DeepSeek V4 能力时,优先用官方 API。
  • 需要本地私有化时,优先看是否有成熟推理服务商或内部多卡服务器。
  • 只有 24GB 到 48GB 显存时,转向 7B、14B、32B、70B 级别量化模型更实际。

如果你有 128GB 到 256GB 总显存:

  • 可以关注 V4-Flash Q4/Q5 是否有稳定社区实现。
  • 不建议把 V4-Pro 当成主力本地模型。

如果你有 512GB 以上总显存:

  • V4-Pro Q4 才开始进入工程验证范围。
  • 仍然要关注推理框架、专家调度、KV cache、吞吐和并发。

DeepSeek V4 的本地部署重点不是“下载哪个量化文件”,而是“有没有足够的系统级推理能力”。 它更接近一个服务器模型,而不是普通桌面模型。

参考来源

记录并分享
使用 Hugo 构建
主题 StackJimmy 设计