DeepSeek V4 と Gemma 4 は、ローカル実行の難度がまったく違います。 Gemma 4 の 26B や 31B なら、24GB や 32GB のGPUでどの量子化版を選ぶかをまだ議論できます。DeepSeek V4 は巨大な MoE モデルであり、完全なローカル実行では多GPUワークステーションやサーバー級のVRAMが必要になります。
公式の DeepSeek V4 Preview には、主に2つの推論モデルがあります。
DeepSeek-V4-Pro:1.6T total / 49B active paramsDeepSeek-V4-Flash:284B total / 13B active params
Hugging Face の公式 collection には、さらに2つの Base モデルも含まれています。
DeepSeek-V4-Pro-BaseDeepSeek-V4-Flash-Base
この記事では、モデル重みを完全に読み込む場合のおおまかなVRAM要件だけを扱います。
MoE の active params は主に各 token の計算量に効くものであり、その分のパラメータだけを読み込めばよいという意味ではありません。
専門家のオンデマンド読み込み、CPU/NVMe offload、分散推論、専用ランタイム最適化がない場合、VRAMは基本的に完全な重みサイズを基準に見積もる必要があります。
まず結論
| VRAM規模 | 比較的現実的に試せるもの | 期待しないほうがよいもの |
|---|---|---|
| 24GB | DeepSeek V4 の完全実行は不可。小型蒸留モデルまたはAPI向け | V4-Flash / V4-Pro の完全ローカル読み込み |
| 48GB | まだ完全読み込みには不向き。小型モデルやリモートAPIクライアント向け | V4-Flash Q4 の安定実行 |
| 80GB | 理論上 V4-Flash Q2/Q3 や強い offload を試せる | V4-Pro |
| 128GB | V4-Flash Q4 が比較的現実的。Q5/Q6 はまだ厳しい | V4-Pro Q4 |
| 192GB | V4-Flash FP8/Q6 は余裕が出る。Pro Q2 は実験範囲 | V4-Pro Q4 |
| 256GB | V4-Flash FP8 はかなり安定。Pro Q2/Q3 は実験可能 | V4-Pro Q5 以上 |
| 512GB | V4-Pro Q4 が議論できる範囲に入る | V4-Pro FP8 |
| 1TB+ | V4-Pro FP8、Pro-Base の低ビット幅がより現実的 | 低コスト単体マシン運用 |
| 2TB+ | Pro-Base FP8 クラス | 普通のワークステーション運用 |
個人PCでローカル実行することが目的なら、DeepSeek V4 は適切な対象ではありません。 より現実的な選択肢は次の通りです。
- DeepSeek 公式 API または互換サービスを使う。
- 安定したコミュニティ製 GGUF/EXL2/MLX 量子化と推論サポートを待つ。
- より小さな DeepSeek 蒸留モデルを使う。
- Qwen、Gemma、Llama などの 7B〜70B 級ローカルモデルを使う。
公式重みサイズ
以下は Hugging Face 公式リポジトリの model.safetensors.index.json から確認できる重み総量です。
これは現在公開されている重みファイルのサイズであり、長いコンテキスト実行時の完全なVRAM使用量ではありません。
| モデル | パラメータ規模 | 公式重みサイズ | 説明 |
|---|---|---|---|
DeepSeek-V4-Flash |
284B total / 13B active | 159.61GB | 推論版。この中では最小 |
DeepSeek-V4-Pro |
1.6T total / 49B active | 864.70GB | 推論版。より強力だが非常に大きい |
DeepSeek-V4-Flash-Base |
284B total | 294.67GB | Base 版。全量 FP8 重みに近いサイズ |
DeepSeek-V4-Pro-Base |
1.6T total | 1606.03GB | Base 版。約 1.6TB クラス |
最小の V4-Flash でも、公式重みはすでに約 160GB あります。
そのため、13B active params だからといって 13B 小型モデルのようには扱えません。
DeepSeek V4 Flash のVRAM見積もり
V4-Flash は DeepSeek V4 の中では最もローカル実験に近いモデルです。
ただし、それは Pro と比べた場合の話であり、消費者向け単体GPUモデルではありません。
以下では、公式の 159.61GB 重みサイズを基準にしています。 Q4/Q3/Q2 はビット幅からの推定であり、安定した公式 GGUF 版が存在することを意味しません。
| 版 / 量子化 | 推定重みサイズ | 最低VRAM | 安全なVRAM目安 | 向く用途 |
|---|---|---|---|---|
FP8 / 公式重み |
159.61GB | 192GB | 256GB | 多GPUサーバー、推論サービス |
Q6 |
120GB | 160GB | 192GB | 品質優先の量子化実験 |
Q5 |
100GB | 128GB | 160GB | 品質とサイズのバランス |
Q4 |
80GB | 96GB | 128GB | Flash ローカル化の比較的現実的な出発点 |
Q3 |
60GB | 80GB | 96GB | 大容量VRAM単体GPUまたは多GPU実験 |
Q2 |
40GB | 48GB | 64GB | 極限低ビット実験。品質リスクは大きい |
将来、成熟した V4-Flash Q4 が出たとしても、24GB GPU向けのモデルにはなりにくいです。
より現実的な出発点は、96GB〜128GB 級の総VRAM、または速度を犠牲にした CPU/offload 構成です。
DeepSeek V4 Pro のVRAM見積もり
V4-Pro は旗艦推論版で、公式重みサイズは約 864.70GB です。
4-bit 量子化をしても、完全な重みは数百GB級のままです。
| 版 / 量子化 | 推定重みサイズ | 最低VRAM | 安全なVRAM目安 | 向く用途 |
|---|---|---|---|---|
FP8 / 公式重み |
864.70GB | 1TB | 1.2TB+ | 多ノードまたは多GPU推論サービス |
Q6 |
648GB | 768GB | 1TB | 高品質な量子化サービス |
Q5 |
540GB | 640GB | 768GB | 品質とコストのバランス |
Q4 |
432GB | 512GB | 640GB | Pro ローカル化で現実的な最低品質ライン |
Q3 |
324GB | 384GB | 512GB | 低ビット実験 |
Q2 |
216GB | 256GB | 320GB | 極限実験。品質と安定性のリスクが高い |
個人ユーザーにとって、V4-Pro は API 経由で使うほうが現実的です。
完全なローカル実行を目指すなら、4090、5090、RTX PRO 単体GPUではなく、多GPUサーバーモデルとして考えるべきです。
DeepSeek V4 Flash-Base のVRAM見積もり
Base 版は通常、研究、微調整、継続学習向けであり、普通のチャット用途の第一候補ではありません。
V4-Flash-Base の公式重みサイズは約 294.67GB です。
| 版 / 量子化 | 推定重みサイズ | 最低VRAM | 安全なVRAM目安 | 向く用途 |
|---|---|---|---|---|
FP8 / 公式重み |
294.67GB | 384GB | 512GB | 研究、前処理、評価 |
Q6 |
221GB | 256GB | 320GB | 高品質量子化研究 |
Q5 |
184GB | 224GB | 256GB | 品質とサイズのバランス |
Q4 |
147GB | 192GB | 224GB | 低コストな Base 版実験 |
Q3 |
111GB | 128GB | 160GB | 低ビット実験 |
Q2 |
74GB | 96GB | 128GB | 極限実験 |
DeepSeek V4 の能力を使いたいだけなら、Base 版から始めることはおすすめしません。 Base 版はデプロイと調整のコストが高く、通常のアプリケーションには推論版または API のほうが向いています。
DeepSeek V4 Pro-Base のVRAM見積もり
V4-Pro-Base は最も重いバージョンで、公式重みサイズは約 1606.03GB です。
これはすでに 1.6TB クラスのモデルファイルです。
| 版 / 量子化 | 推定重みサイズ | 最低VRAM | 安全なVRAM目安 | 向く用途 |
|---|---|---|---|---|
FP8 / 公式重み |
1606.03GB | 2TB | 2.4TB+ | 大規模研究クラスタ |
Q6 |
1205GB | 1.5TB | 2TB | 高品質量子化研究 |
Q5 |
1004GB | 1.2TB | 1.5TB | 研究と評価 |
Q4 |
803GB | 1TB | 1.2TB | 低ビット研究 |
Q3 |
602GB | 768GB | 1TB | 極限低ビット研究 |
Q2 |
402GB | 512GB | 640GB | 極限実験 |
この種のモデルは、「家庭用GPUで動くか」という枠組みで考える対象ではありません。 Q4 であっても、ほとんどの単体ワークステーションの快適な範囲を超えています。
active params だけを見てはいけない理由
DeepSeek V4 は MoE モデルです。 MoE では各 token が一部の専門家だけを有効化するため、計算量は総パラメータ数よりかなり小さくなります。 しかし、それはVRAMに active params だけを載せればよいという意味ではありません。
完全なローカル推論では、次の要素も考える必要があります。
- すべての専門家重みをGPUに常駐させる必要があるか。
- 専門家のオンデマンド読み込みに対応しているか。
- CPUメモリとGPU VRAM間のデータ転送コスト。
- NVMe offload の遅延。
- 長コンテキストで増える KV cache。
- 1M context 実行時の追加ランタイムコスト。
- 多ノード・多GPU通信コスト。
したがって、49B active の V4-Pro を 49B モデルとして扱ってはいけません。
13B active の V4-Flash も、13B 小型モデルとして扱うべきではありません。
どう選ぶか
普通の個人ユーザーなら:
- DeepSeek V4 を完全にローカル実行することはおすすめしません。
- DeepSeek V4 の能力が必要なら、まず公式 API を使う。
- ローカル私有化が必要なら、成熟した推論サービス基盤や社内多GPUサーバーがあるかを先に確認する。
- 24GB〜48GB VRAM しかない場合は、7B、14B、32B、70B 級の量子化モデルのほうが現実的です。
128GB〜256GB の総VRAMがある場合:
V4-Flash Q4/Q5の安定したコミュニティ実装を注視する。V4-Proを主力ローカルモデルとして扱うのはおすすめしません。
512GB 以上の総VRAMがある場合:
V4-Pro Q4がようやく工学的な検証対象になります。- それでも推論フレームワーク、専門家スケジューリング、KV cache、スループット、並列性を確認する必要があります。
DeepSeek V4 のローカル部署で重要なのは、「どの量子化ファイルをダウンロードするか」ではありません。 「このモデルを支えるだけのシステムレベルの推論能力があるか」です。 これはデスクトップモデルというより、サーバーモデルに近い存在です。