DeepSeek V4 和 Gemma 4 的本地部署不是一个量级。 Gemma 4 的 26B、31B 还能讨论 24GB、32GB 显卡怎么选量化版;DeepSeek V4 则是超大 MoE 模型,真正完整本地部署时,显存需求会直接进入多卡工作站或服务器级别。
官方发布的 DeepSeek V4 Preview 主要包含两个推理版本:
DeepSeek-V4-Pro:1.6T total / 49B active paramsDeepSeek-V4-Flash:284B total / 13B active params
Hugging Face 官方 collection 里还包含两个 Base 版本:
DeepSeek-V4-Pro-BaseDeepSeek-V4-Flash-Base
这篇只讨论完整加载模型权重时的大致显存门槛。
MoE 的 active params 主要影响每个 token 的计算量,不等于只需要加载这部分参数。
如果没有专家按需加载、CPU/NVMe offload、分布式推理或专门运行时优化,显存仍然要按完整权重来估。
先看结论
| 显存规模 | 能比较现实地尝试什么 | 不建议期待什么 |
|---|---|---|
| 24GB | 不能完整跑 DeepSeek V4;只能跑小型蒸馏模型或 API | V4-Flash / V4-Pro 完整本地加载 |
| 48GB | 仍不适合完整加载;可做小模型或远程 API 客户端 | V4-Flash Q4 稳定运行 |
| 80GB | 理论上可尝试 V4-Flash Q2/Q3 或强 offload | V4-Pro |
| 128GB | V4-Flash Q4 比较现实;Q5/Q6 仍紧 | V4-Pro Q4 |
| 192GB | V4-Flash FP8/Q6 更从容;Pro Q2 勉强进入讨论 | V4-Pro Q4 |
| 256GB | V4-Flash FP8 比较稳;Pro Q2/Q3 可实验 | V4-Pro Q5 以上 |
| 512GB | V4-Pro Q4 开始进入可讨论范围 | V4-Pro FP8 |
| 1TB+ | V4-Pro FP8、Pro-Base 低位宽更现实 | 单机低成本部署 |
| 2TB+ | Pro-Base FP8 级别 | 普通工作站部署 |
如果你的目标是个人电脑本地运行,DeepSeek V4 并不是合适对象。 更现实的路线是:
- 用 DeepSeek 官方 API 或兼容服务;
- 等社区稳定的 GGUF/EXL2/MLX 量化和推理支持;
- 使用更小的 DeepSeek 蒸馏模型;
- 或者把本地模型换成 Qwen、Gemma、Llama 等 7B 到 70B 级别模型。
官方权重体积
以下是 Hugging Face 官方仓库的 model.safetensors.index.json 中统计到的权重总量。
它反映的是当前公开权重文件大小,不等于长上下文运行时的完整显存占用。
| 模型 | 参数规模 | 官方权重体积 | 说明 |
|---|---|---|---|
DeepSeek-V4-Flash |
284B total / 13B active | 159.61GB | 推理版,体积相对最小 |
DeepSeek-V4-Pro |
1.6T total / 49B active | 864.70GB | 推理版,能力更强,体积巨大 |
DeepSeek-V4-Flash-Base |
284B total | 294.67GB | Base 版,更接近全量 FP8 权重体积 |
DeepSeek-V4-Pro-Base |
1.6T total | 1606.03GB | Base 版,约 1.6TB 级别 |
可以看到,即使是最小的 V4-Flash,官方权重也已经接近 160GB。
这就是为什么它不能按“13B active params”理解成 13B 小模型。
DeepSeek V4 Flash 显存估算
V4-Flash 是 DeepSeek V4 里最适合本地尝试的一档。
但“最适合”只是相对 Pro 而言,它仍然不是消费级单卡模型。
下面按官方 159.61GB 权重体积做折算。 其中 Q4/Q3/Q2 是按位宽估算,不代表当前已经有稳定可用的官方 GGUF 版本。
| 版本/量化 | 估算权重体积 | 最低显存 | 更稳妥显存 | 适合场景 |
|---|---|---|---|---|
FP8 / 官方权重 |
159.61GB | 192GB | 256GB | 多卡服务器、推理服务 |
Q6 |
120GB | 160GB | 192GB | 质量优先的量化尝试 |
Q5 |
100GB | 128GB | 160GB | 质量和体积折中 |
Q4 |
80GB | 96GB | 128GB | Flash 本地化较现实的起点 |
Q3 |
60GB | 80GB | 96GB | 大显存单卡或多卡实验 |
Q2 |
40GB | 48GB | 64GB | 极限低位宽实验,质量风险明显 |
如果未来社区出现成熟的 V4-Flash Q4,它大概率也不是 24GB 显卡的模型。
更现实的硬件起点是 96GB 到 128GB 级别的总显存,或者依赖 CPU 内存/offload 换速度。
DeepSeek V4 Pro 显存估算
V4-Pro 是旗舰推理版,官方权重体积约 864.70GB。
即使做 4-bit 量化,完整权重也仍然是数百 GB 级别。
| 版本/量化 | 估算权重体积 | 最低显存 | 更稳妥显存 | 适合场景 |
|---|---|---|---|---|
FP8 / 官方权重 |
864.70GB | 1TB | 1.2TB+ | 多机多卡推理服务 |
Q6 |
648GB | 768GB | 1TB | 高质量量化服务 |
Q5 |
540GB | 640GB | 768GB | 高质量与成本折中 |
Q4 |
432GB | 512GB | 640GB | Pro 本地化较现实的最低质量线 |
Q3 |
324GB | 384GB | 512GB | 低位宽实验 |
Q2 |
216GB | 256GB | 320GB | 极限实验,质量和稳定性风险高 |
对个人用户来说,V4-Pro 更适合通过 API 使用。
如果目标是完整本地部署,至少要把它当成多卡服务器模型,而不是 4090、5090、RTX PRO 单卡模型。
DeepSeek V4 Flash-Base 显存估算
Base 版通常用于研究、微调或继续训练,不是普通聊天部署的首选。
V4-Flash-Base 官方权重体积约 294.67GB。
| 版本/量化 | 估算权重体积 | 最低显存 | 更稳妥显存 | 适合场景 |
|---|---|---|---|---|
FP8 / 官方权重 |
294.67GB | 384GB | 512GB | 研究、训练前处理、评测 |
Q6 |
221GB | 256GB | 320GB | 高质量量化研究 |
Q5 |
184GB | 224GB | 256GB | 质量和体积折中 |
Q4 |
147GB | 192GB | 224GB | Base 版低成本实验 |
Q3 |
111GB | 128GB | 160GB | 低位宽实验 |
Q2 |
74GB | 96GB | 128GB | 极限实验 |
如果只是要使用 DeepSeek V4 能力,不建议从 Base 版开始。 Base 版的部署和调优成本更高,普通应用更适合推理版或 API。
DeepSeek V4 Pro-Base 显存估算
V4-Pro-Base 是最重的一档,官方权重体积约 1606.03GB。
这已经是 1.6TB 级别的模型文件。
| 版本/量化 | 估算权重体积 | 最低显存 | 更稳妥显存 | 适合场景 |
|---|---|---|---|---|
FP8 / 官方权重 |
1606.03GB | 2TB | 2.4TB+ | 大规模研究集群 |
Q6 |
1205GB | 1.5TB | 2TB | 高质量量化研究 |
Q5 |
1004GB | 1.2TB | 1.5TB | 研究与评测 |
Q4 |
803GB | 1TB | 1.2TB | 低位宽研究 |
Q3 |
602GB | 768GB | 1TB | 极限低位宽研究 |
Q2 |
402GB | 512GB | 640GB | 极限实验 |
这类模型不适合被放进“家用显卡能不能跑”的框架里讨论。 哪怕是 Q4,也已经超过绝大多数单机工作站的舒适范围。
为什么不能只看 active params
DeepSeek V4 是 MoE 模型。 MoE 的特点是每个 token 只激活一部分专家,因此计算量会明显低于总参数量。 但这不等于显存只需要放 active params。
完整本地推理通常还要考虑:
- 所有专家权重是否需要常驻 GPU;
- 是否支持按需专家加载;
- CPU 内存与 GPU 显存之间的数据搬运成本;
- NVMe offload 的延迟;
- KV cache 在长上下文下的增长;
- 1M context 场景下的额外运行时开销;
- 多机多卡通信成本。
所以,49B active 的 V4-Pro 不能当成 49B 模型来部署。
13B active 的 V4-Flash 也不能当成 13B 小模型来部署。
怎么选
如果你只是普通个人用户:
- 不建议完整本地部署 DeepSeek V4。
- 需要 DeepSeek V4 能力时,优先用官方 API。
- 需要本地私有化时,优先看是否有成熟推理服务商或内部多卡服务器。
- 只有 24GB 到 48GB 显存时,转向 7B、14B、32B、70B 级别量化模型更实际。
如果你有 128GB 到 256GB 总显存:
- 可以关注
V4-Flash Q4/Q5是否有稳定社区实现。 - 不建议把
V4-Pro当成主力本地模型。
如果你有 512GB 以上总显存:
V4-Pro Q4才开始进入工程验证范围。- 仍然要关注推理框架、专家调度、KV cache、吞吐和并发。
DeepSeek V4 的本地部署重点不是“下载哪个量化文件”,而是“有没有足够的系统级推理能力”。 它更接近一个服务器模型,而不是普通桌面模型。