DeepSeek V4 をローカルで動かす:Pro、Flash、Base 版のVRAM使用量見積もり

Gemma 4 のVRAM表と同じ形式で、DeepSeek V4 Pro、Flash、Pro-Base、Flash-Base の量子化ビット幅ごとの重みサイズとVRAM目安を整理する。

DeepSeek V4 と Gemma 4 は、ローカル実行の難度がまったく違います。 Gemma 4 の 26B や 31B なら、24GB や 32GB のGPUでどの量子化版を選ぶかをまだ議論できます。DeepSeek V4 は巨大な MoE モデルであり、完全なローカル実行では多GPUワークステーションやサーバー級のVRAMが必要になります。

公式の DeepSeek V4 Preview には、主に2つの推論モデルがあります。

  • DeepSeek-V4-Pro1.6T total / 49B active params
  • DeepSeek-V4-Flash284B total / 13B active params

Hugging Face の公式 collection には、さらに2つの Base モデルも含まれています。

  • DeepSeek-V4-Pro-Base
  • DeepSeek-V4-Flash-Base

この記事では、モデル重みを完全に読み込む場合のおおまかなVRAM要件だけを扱います。 MoE の active params は主に各 token の計算量に効くものであり、その分のパラメータだけを読み込めばよいという意味ではありません。 専門家のオンデマンド読み込み、CPU/NVMe offload、分散推論、専用ランタイム最適化がない場合、VRAMは基本的に完全な重みサイズを基準に見積もる必要があります。

まず結論

VRAM規模 比較的現実的に試せるもの 期待しないほうがよいもの
24GB DeepSeek V4 の完全実行は不可。小型蒸留モデルまたはAPI向け V4-Flash / V4-Pro の完全ローカル読み込み
48GB まだ完全読み込みには不向き。小型モデルやリモートAPIクライアント向け V4-Flash Q4 の安定実行
80GB 理論上 V4-Flash Q2/Q3 や強い offload を試せる V4-Pro
128GB V4-Flash Q4 が比較的現実的。Q5/Q6 はまだ厳しい V4-Pro Q4
192GB V4-Flash FP8/Q6 は余裕が出る。Pro Q2 は実験範囲 V4-Pro Q4
256GB V4-Flash FP8 はかなり安定。Pro Q2/Q3 は実験可能 V4-Pro Q5 以上
512GB V4-Pro Q4 が議論できる範囲に入る V4-Pro FP8
1TB+ V4-Pro FP8、Pro-Base の低ビット幅がより現実的 低コスト単体マシン運用
2TB+ Pro-Base FP8 クラス 普通のワークステーション運用

個人PCでローカル実行することが目的なら、DeepSeek V4 は適切な対象ではありません。 より現実的な選択肢は次の通りです。

  • DeepSeek 公式 API または互換サービスを使う。
  • 安定したコミュニティ製 GGUF/EXL2/MLX 量子化と推論サポートを待つ。
  • より小さな DeepSeek 蒸留モデルを使う。
  • Qwen、Gemma、Llama などの 7B〜70B 級ローカルモデルを使う。

公式重みサイズ

以下は Hugging Face 公式リポジトリの model.safetensors.index.json から確認できる重み総量です。 これは現在公開されている重みファイルのサイズであり、長いコンテキスト実行時の完全なVRAM使用量ではありません。

モデル パラメータ規模 公式重みサイズ 説明
DeepSeek-V4-Flash 284B total / 13B active 159.61GB 推論版。この中では最小
DeepSeek-V4-Pro 1.6T total / 49B active 864.70GB 推論版。より強力だが非常に大きい
DeepSeek-V4-Flash-Base 284B total 294.67GB Base 版。全量 FP8 重みに近いサイズ
DeepSeek-V4-Pro-Base 1.6T total 1606.03GB Base 版。約 1.6TB クラス

最小の V4-Flash でも、公式重みはすでに約 160GB あります。 そのため、13B active params だからといって 13B 小型モデルのようには扱えません。

DeepSeek V4 Flash のVRAM見積もり

V4-Flash は DeepSeek V4 の中では最もローカル実験に近いモデルです。 ただし、それは Pro と比べた場合の話であり、消費者向け単体GPUモデルではありません。

以下では、公式の 159.61GB 重みサイズを基準にしています。 Q4/Q3/Q2 はビット幅からの推定であり、安定した公式 GGUF 版が存在することを意味しません。

版 / 量子化 推定重みサイズ 最低VRAM 安全なVRAM目安 向く用途
FP8 / 公式重み 159.61GB 192GB 256GB 多GPUサーバー、推論サービス
Q6 120GB 160GB 192GB 品質優先の量子化実験
Q5 100GB 128GB 160GB 品質とサイズのバランス
Q4 80GB 96GB 128GB Flash ローカル化の比較的現実的な出発点
Q3 60GB 80GB 96GB 大容量VRAM単体GPUまたは多GPU実験
Q2 40GB 48GB 64GB 極限低ビット実験。品質リスクは大きい

将来、成熟した V4-Flash Q4 が出たとしても、24GB GPU向けのモデルにはなりにくいです。 より現実的な出発点は、96GB〜128GB 級の総VRAM、または速度を犠牲にした CPU/offload 構成です。

DeepSeek V4 Pro のVRAM見積もり

V4-Pro は旗艦推論版で、公式重みサイズは約 864.70GB です。 4-bit 量子化をしても、完全な重みは数百GB級のままです。

版 / 量子化 推定重みサイズ 最低VRAM 安全なVRAM目安 向く用途
FP8 / 公式重み 864.70GB 1TB 1.2TB+ 多ノードまたは多GPU推論サービス
Q6 648GB 768GB 1TB 高品質な量子化サービス
Q5 540GB 640GB 768GB 品質とコストのバランス
Q4 432GB 512GB 640GB Pro ローカル化で現実的な最低品質ライン
Q3 324GB 384GB 512GB 低ビット実験
Q2 216GB 256GB 320GB 極限実験。品質と安定性のリスクが高い

個人ユーザーにとって、V4-Pro は API 経由で使うほうが現実的です。 完全なローカル実行を目指すなら、4090、5090、RTX PRO 単体GPUではなく、多GPUサーバーモデルとして考えるべきです。

DeepSeek V4 Flash-Base のVRAM見積もり

Base 版は通常、研究、微調整、継続学習向けであり、普通のチャット用途の第一候補ではありません。 V4-Flash-Base の公式重みサイズは約 294.67GB です。

版 / 量子化 推定重みサイズ 最低VRAM 安全なVRAM目安 向く用途
FP8 / 公式重み 294.67GB 384GB 512GB 研究、前処理、評価
Q6 221GB 256GB 320GB 高品質量子化研究
Q5 184GB 224GB 256GB 品質とサイズのバランス
Q4 147GB 192GB 224GB 低コストな Base 版実験
Q3 111GB 128GB 160GB 低ビット実験
Q2 74GB 96GB 128GB 極限実験

DeepSeek V4 の能力を使いたいだけなら、Base 版から始めることはおすすめしません。 Base 版はデプロイと調整のコストが高く、通常のアプリケーションには推論版または API のほうが向いています。

DeepSeek V4 Pro-Base のVRAM見積もり

V4-Pro-Base は最も重いバージョンで、公式重みサイズは約 1606.03GB です。 これはすでに 1.6TB クラスのモデルファイルです。

版 / 量子化 推定重みサイズ 最低VRAM 安全なVRAM目安 向く用途
FP8 / 公式重み 1606.03GB 2TB 2.4TB+ 大規模研究クラスタ
Q6 1205GB 1.5TB 2TB 高品質量子化研究
Q5 1004GB 1.2TB 1.5TB 研究と評価
Q4 803GB 1TB 1.2TB 低ビット研究
Q3 602GB 768GB 1TB 極限低ビット研究
Q2 402GB 512GB 640GB 極限実験

この種のモデルは、「家庭用GPUで動くか」という枠組みで考える対象ではありません。 Q4 であっても、ほとんどの単体ワークステーションの快適な範囲を超えています。

active params だけを見てはいけない理由

DeepSeek V4 は MoE モデルです。 MoE では各 token が一部の専門家だけを有効化するため、計算量は総パラメータ数よりかなり小さくなります。 しかし、それはVRAMに active params だけを載せればよいという意味ではありません。

完全なローカル推論では、次の要素も考える必要があります。

  • すべての専門家重みをGPUに常駐させる必要があるか。
  • 専門家のオンデマンド読み込みに対応しているか。
  • CPUメモリとGPU VRAM間のデータ転送コスト。
  • NVMe offload の遅延。
  • 長コンテキストで増える KV cache。
  • 1M context 実行時の追加ランタイムコスト。
  • 多ノード・多GPU通信コスト。

したがって、49B activeV4-Pro を 49B モデルとして扱ってはいけません。 13B activeV4-Flash も、13B 小型モデルとして扱うべきではありません。

どう選ぶか

普通の個人ユーザーなら:

  • DeepSeek V4 を完全にローカル実行することはおすすめしません。
  • DeepSeek V4 の能力が必要なら、まず公式 API を使う。
  • ローカル私有化が必要なら、成熟した推論サービス基盤や社内多GPUサーバーがあるかを先に確認する。
  • 24GB〜48GB VRAM しかない場合は、7B、14B、32B、70B 級の量子化モデルのほうが現実的です。

128GB〜256GB の総VRAMがある場合:

  • V4-Flash Q4/Q5 の安定したコミュニティ実装を注視する。
  • V4-Pro を主力ローカルモデルとして扱うのはおすすめしません。

512GB 以上の総VRAMがある場合:

  • V4-Pro Q4 がようやく工学的な検証対象になります。
  • それでも推論フレームワーク、専門家スケジューリング、KV cache、スループット、並列性を確認する必要があります。

DeepSeek V4 のローカル部署で重要なのは、「どの量子化ファイルをダウンロードするか」ではありません。 「このモデルを支えるだけのシステムレベルの推論能力があるか」です。 これはデスクトップモデルというより、サーバーモデルに近い存在です。

参考元

记录并分享
Hugo で構築されています。
テーマ StackJimmy によって設計されています。