DeepSeek V4 をローカルで動かす：Pro、Flash、Base 版のVRAM使用量見積もり

Fri, 01 May 2026 11:55:25 +0800

DeepSeek V4 と Gemma 4 は、ローカル実行の難度がまったく違います。 Gemma 4 の 26B や 31B なら、24GB や 32GB のGPUでどの量子化版を選ぶかをまだ議論できます。DeepSeek V4 は巨大な MoE モデルであり、完全なローカル実行では多GPUワークステーションやサーバー級のVRAMが必要になります。

公式の DeepSeek V4 Preview には、主に2つの推論モデルがあります。

DeepSeek-V4-Pro：1.6T total / 49B active params
DeepSeek-V4-Flash：284B total / 13B active params

Hugging Face の公式 collection には、さらに2つの Base モデルも含まれています。

DeepSeek-V4-Pro-Base
DeepSeek-V4-Flash-Base

この記事では、モデル重みを完全に読み込む場合のおおまかなVRAM要件だけを扱います。 MoE の active params は主に各 token の計算量に効くものであり、その分のパラメータだけを読み込めばよいという意味ではありません。専門家のオンデマンド読み込み、CPU/NVMe offload、分散推論、専用ランタイム最適化がない場合、VRAMは基本的に完全な重みサイズを基準に見積もる必要があります。

まず結論

VRAM規模	比較的現実的に試せるもの	期待しないほうがよいもの
24GB	DeepSeek V4 の完全実行は不可。小型蒸留モデルまたはAPI向け	V4-Flash / V4-Pro の完全ローカル読み込み
48GB	まだ完全読み込みには不向き。小型モデルやリモートAPIクライアント向け	V4-Flash Q4 の安定実行
80GB	理論上 V4-Flash Q2/Q3 や強い offload を試せる	V4-Pro
128GB	V4-Flash Q4 が比較的現実的。Q5/Q6 はまだ厳しい	V4-Pro Q4
192GB	V4-Flash FP8/Q6 は余裕が出る。Pro Q2 は実験範囲	V4-Pro Q4
256GB	V4-Flash FP8 はかなり安定。Pro Q2/Q3 は実験可能	V4-Pro Q5 以上
512GB	V4-Pro Q4 が議論できる範囲に入る	V4-Pro FP8
1TB+	V4-Pro FP8、Pro-Base の低ビット幅がより現実的	低コスト単体マシン運用
2TB+	Pro-Base FP8 クラス	普通のワークステーション運用

個人PCでローカル実行することが目的なら、DeepSeek V4 は適切な対象ではありません。より現実的な選択肢は次の通りです。

DeepSeek 公式 API または互換サービスを使う。
安定したコミュニティ製 GGUF/EXL2/MLX 量子化と推論サポートを待つ。
より小さな DeepSeek 蒸留モデルを使う。
Qwen、Gemma、Llama などの 7B〜70B 級ローカルモデルを使う。

公式重みサイズ

以下は Hugging Face 公式リポジトリの model.safetensors.index.json から確認できる重み総量です。これは現在公開されている重みファイルのサイズであり、長いコンテキスト実行時の完全なVRAM使用量ではありません。

モデル	パラメータ規模	公式重みサイズ	説明
`DeepSeek-V4-Flash`	284B total / 13B active	159.61GB	推論版。この中では最小
`DeepSeek-V4-Pro`	1.6T total / 49B active	864.70GB	推論版。より強力だが非常に大きい
`DeepSeek-V4-Flash-Base`	284B total	294.67GB	Base 版。全量 FP8 重みに近いサイズ
`DeepSeek-V4-Pro-Base`	1.6T total	1606.03GB	Base 版。約 1.6TB クラス

最小の V4-Flash でも、公式重みはすでに約 160GB あります。そのため、13B active params だからといって 13B 小型モデルのようには扱えません。

DeepSeek V4 Flash のVRAM見積もり

V4-Flash は DeepSeek V4 の中では最もローカル実験に近いモデルです。ただし、それは Pro と比べた場合の話であり、消費者向け単体GPUモデルではありません。

以下では、公式の 159.61GB 重みサイズを基準にしています。 Q4/Q3/Q2 はビット幅からの推定であり、安定した公式 GGUF 版が存在することを意味しません。

版 / 量子化	推定重みサイズ	最低VRAM	安全なVRAM目安	向く用途
`FP8 / 公式重み`	159.61GB	192GB	256GB	多GPUサーバー、推論サービス
`Q6`	120GB	160GB	192GB	品質優先の量子化実験
`Q5`	100GB	128GB	160GB	品質とサイズのバランス
`Q4`	80GB	96GB	128GB	Flash ローカル化の比較的現実的な出発点
`Q3`	60GB	80GB	96GB	大容量VRAM単体GPUまたは多GPU実験
`Q2`	40GB	48GB	64GB	極限低ビット実験。品質リスクは大きい

将来、成熟した V4-Flash Q4 が出たとしても、24GB GPU向けのモデルにはなりにくいです。より現実的な出発点は、96GB〜128GB 級の総VRAM、または速度を犠牲にした CPU/offload 構成です。

DeepSeek V4 Pro のVRAM見積もり

V4-Pro は旗艦推論版で、公式重みサイズは約 864.70GB です。 4-bit 量子化をしても、完全な重みは数百GB級のままです。

版 / 量子化	推定重みサイズ	最低VRAM	安全なVRAM目安	向く用途
`FP8 / 公式重み`	864.70GB	1TB	1.2TB+	多ノードまたは多GPU推論サービス
`Q6`	648GB	768GB	1TB	高品質な量子化サービス
`Q5`	540GB	640GB	768GB	品質とコストのバランス
`Q4`	432GB	512GB	640GB	Pro ローカル化で現実的な最低品質ライン
`Q3`	324GB	384GB	512GB	低ビット実験
`Q2`	216GB	256GB	320GB	極限実験。品質と安定性のリスクが高い

個人ユーザーにとって、V4-Pro は API 経由で使うほうが現実的です。完全なローカル実行を目指すなら、4090、5090、RTX PRO 単体GPUではなく、多GPUサーバーモデルとして考えるべきです。

DeepSeek V4 Flash-Base のVRAM見積もり

Base 版は通常、研究、微調整、継続学習向けであり、普通のチャット用途の第一候補ではありません。 V4-Flash-Base の公式重みサイズは約 294.67GB です。

版 / 量子化	推定重みサイズ	最低VRAM	安全なVRAM目安	向く用途
`FP8 / 公式重み`	294.67GB	384GB	512GB	研究、前処理、評価
`Q6`	221GB	256GB	320GB	高品質量子化研究
`Q5`	184GB	224GB	256GB	品質とサイズのバランス
`Q4`	147GB	192GB	224GB	低コストな Base 版実験
`Q3`	111GB	128GB	160GB	低ビット実験
`Q2`	74GB	96GB	128GB	極限実験

DeepSeek V4 の能力を使いたいだけなら、Base 版から始めることはおすすめしません。 Base 版はデプロイと調整のコストが高く、通常のアプリケーションには推論版または API のほうが向いています。

DeepSeek V4 Pro-Base のVRAM見積もり

V4-Pro-Base は最も重いバージョンで、公式重みサイズは約 1606.03GB です。これはすでに 1.6TB クラスのモデルファイルです。

版 / 量子化	推定重みサイズ	最低VRAM	安全なVRAM目安	向く用途
`FP8 / 公式重み`	1606.03GB	2TB	2.4TB+	大規模研究クラスタ
`Q6`	1205GB	1.5TB	2TB	高品質量子化研究
`Q5`	1004GB	1.2TB	1.5TB	研究と評価
`Q4`	803GB	1TB	1.2TB	低ビット研究
`Q3`	602GB	768GB	1TB	極限低ビット研究
`Q2`	402GB	512GB	640GB	極限実験

この種のモデルは、「家庭用GPUで動くか」という枠組みで考える対象ではありません。 Q4 であっても、ほとんどの単体ワークステーションの快適な範囲を超えています。

active params だけを見てはいけない理由

DeepSeek V4 は MoE モデルです。 MoE では各 token が一部の専門家だけを有効化するため、計算量は総パラメータ数よりかなり小さくなります。しかし、それはVRAMに active params だけを載せればよいという意味ではありません。

完全なローカル推論では、次の要素も考える必要があります。

すべての専門家重みをGPUに常駐させる必要があるか。
専門家のオンデマンド読み込みに対応しているか。
CPUメモリとGPU VRAM間のデータ転送コスト。
NVMe offload の遅延。
長コンテキストで増える KV cache。
1M context 実行時の追加ランタイムコスト。
多ノード・多GPU通信コスト。

したがって、49B active の V4-Pro を 49B モデルとして扱ってはいけません。 13B active の V4-Flash も、13B 小型モデルとして扱うべきではありません。

どう選ぶか

普通の個人ユーザーなら：

DeepSeek V4 を完全にローカル実行することはおすすめしません。
DeepSeek V4 の能力が必要なら、まず公式 API を使う。
ローカル私有化が必要なら、成熟した推論サービス基盤や社内多GPUサーバーがあるかを先に確認する。
24GB〜48GB VRAM しかない場合は、7B、14B、32B、70B 級の量子化モデルのほうが現実的です。

128GB〜256GB の総VRAMがある場合：

V4-Flash Q4/Q5 の安定したコミュニティ実装を注視する。
V4-Pro を主力ローカルモデルとして扱うのはおすすめしません。

512GB 以上の総VRAMがある場合：

V4-Pro Q4 がようやく工学的な検証対象になります。
それでも推論フレームワーク、専門家スケジューリング、KV cache、スループット、並列性を確認する必要があります。

DeepSeek V4 のローカル部署で重要なのは、「どの量子化ファイルをダウンロードするか」ではありません。「このモデルを支えるだけのシステムレベルの推論能力があるか」です。これはデスクトップモデルというより、サーバーモデルに近い存在です。

MoE on KnightLiブログ