<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>MoE on KnightLiブログ</title>
        <link>https://www.knightli.com/ja/tags/moe/</link>
        <description>Recent content in MoE on KnightLiブログ</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>ja</language>
        <lastBuildDate>Fri, 01 May 2026 11:55:25 +0800</lastBuildDate><atom:link href="https://www.knightli.com/ja/tags/moe/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>DeepSeek V4 をローカルで動かす：Pro、Flash、Base 版のVRAM使用量見積もり</title>
        <link>https://www.knightli.com/ja/2026/05/01/deepseek-v4-local-vram-quantization-table/</link>
        <pubDate>Fri, 01 May 2026 11:55:25 +0800</pubDate>
        
        <guid>https://www.knightli.com/ja/2026/05/01/deepseek-v4-local-vram-quantization-table/</guid>
        <description>&lt;p&gt;DeepSeek V4 と Gemma 4 は、ローカル実行の難度がまったく違います。
Gemma 4 の 26B や 31B なら、24GB や 32GB のGPUでどの量子化版を選ぶかをまだ議論できます。DeepSeek V4 は巨大な MoE モデルであり、完全なローカル実行では多GPUワークステーションやサーバー級のVRAMが必要になります。&lt;/p&gt;
&lt;p&gt;公式の DeepSeek V4 Preview には、主に2つの推論モデルがあります。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;DeepSeek-V4-Pro&lt;/code&gt;：&lt;code&gt;1.6T total / 49B active params&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;DeepSeek-V4-Flash&lt;/code&gt;：&lt;code&gt;284B total / 13B active params&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Hugging Face の公式 collection には、さらに2つの Base モデルも含まれています。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;DeepSeek-V4-Pro-Base&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;DeepSeek-V4-Flash-Base&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;この記事では、&lt;strong&gt;モデル重みを完全に読み込む&lt;/strong&gt;場合のおおまかなVRAM要件だけを扱います。
MoE の &lt;code&gt;active params&lt;/code&gt; は主に各 token の計算量に効くものであり、その分のパラメータだけを読み込めばよいという意味ではありません。
専門家のオンデマンド読み込み、CPU/NVMe offload、分散推論、専用ランタイム最適化がない場合、VRAMは基本的に完全な重みサイズを基準に見積もる必要があります。&lt;/p&gt;
&lt;h2 id=&#34;まず結論&#34;&gt;まず結論
&lt;/h2&gt;&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;VRAM規模&lt;/th&gt;
          &lt;th&gt;比較的現実的に試せるもの&lt;/th&gt;
          &lt;th&gt;期待しないほうがよいもの&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;24GB&lt;/td&gt;
          &lt;td&gt;DeepSeek V4 の完全実行は不可。小型蒸留モデルまたはAPI向け&lt;/td&gt;
          &lt;td&gt;V4-Flash / V4-Pro の完全ローカル読み込み&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;48GB&lt;/td&gt;
          &lt;td&gt;まだ完全読み込みには不向き。小型モデルやリモートAPIクライアント向け&lt;/td&gt;
          &lt;td&gt;V4-Flash Q4 の安定実行&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;80GB&lt;/td&gt;
          &lt;td&gt;理論上 V4-Flash Q2/Q3 や強い offload を試せる&lt;/td&gt;
          &lt;td&gt;V4-Pro&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;128GB&lt;/td&gt;
          &lt;td&gt;V4-Flash Q4 が比較的現実的。Q5/Q6 はまだ厳しい&lt;/td&gt;
          &lt;td&gt;V4-Pro Q4&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;192GB&lt;/td&gt;
          &lt;td&gt;V4-Flash FP8/Q6 は余裕が出る。Pro Q2 は実験範囲&lt;/td&gt;
          &lt;td&gt;V4-Pro Q4&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;256GB&lt;/td&gt;
          &lt;td&gt;V4-Flash FP8 はかなり安定。Pro Q2/Q3 は実験可能&lt;/td&gt;
          &lt;td&gt;V4-Pro Q5 以上&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;512GB&lt;/td&gt;
          &lt;td&gt;V4-Pro Q4 が議論できる範囲に入る&lt;/td&gt;
          &lt;td&gt;V4-Pro FP8&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;1TB+&lt;/td&gt;
          &lt;td&gt;V4-Pro FP8、Pro-Base の低ビット幅がより現実的&lt;/td&gt;
          &lt;td&gt;低コスト単体マシン運用&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;2TB+&lt;/td&gt;
          &lt;td&gt;Pro-Base FP8 クラス&lt;/td&gt;
          &lt;td&gt;普通のワークステーション運用&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;個人PCでローカル実行することが目的なら、DeepSeek V4 は適切な対象ではありません。
より現実的な選択肢は次の通りです。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;DeepSeek 公式 API または互換サービスを使う。&lt;/li&gt;
&lt;li&gt;安定したコミュニティ製 GGUF/EXL2/MLX 量子化と推論サポートを待つ。&lt;/li&gt;
&lt;li&gt;より小さな DeepSeek 蒸留モデルを使う。&lt;/li&gt;
&lt;li&gt;Qwen、Gemma、Llama などの 7B〜70B 級ローカルモデルを使う。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;公式重みサイズ&#34;&gt;公式重みサイズ
&lt;/h2&gt;&lt;p&gt;以下は Hugging Face 公式リポジトリの &lt;code&gt;model.safetensors.index.json&lt;/code&gt; から確認できる重み総量です。
これは現在公開されている重みファイルのサイズであり、長いコンテキスト実行時の完全なVRAM使用量ではありません。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;モデル&lt;/th&gt;
          &lt;th&gt;パラメータ規模&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;公式重みサイズ&lt;/th&gt;
          &lt;th&gt;説明&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;DeepSeek-V4-Flash&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;284B total / 13B active&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;159.61GB&lt;/td&gt;
          &lt;td&gt;推論版。この中では最小&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;DeepSeek-V4-Pro&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;1.6T total / 49B active&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;864.70GB&lt;/td&gt;
          &lt;td&gt;推論版。より強力だが非常に大きい&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;DeepSeek-V4-Flash-Base&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;284B total&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;294.67GB&lt;/td&gt;
          &lt;td&gt;Base 版。全量 FP8 重みに近いサイズ&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;DeepSeek-V4-Pro-Base&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;1.6T total&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1606.03GB&lt;/td&gt;
          &lt;td&gt;Base 版。約 1.6TB クラス&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;最小の &lt;code&gt;V4-Flash&lt;/code&gt; でも、公式重みはすでに約 160GB あります。
そのため、&lt;code&gt;13B active params&lt;/code&gt; だからといって 13B 小型モデルのようには扱えません。&lt;/p&gt;
&lt;h2 id=&#34;deepseek-v4-flash-のvram見積もり&#34;&gt;DeepSeek V4 Flash のVRAM見積もり
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;V4-Flash&lt;/code&gt; は DeepSeek V4 の中では最もローカル実験に近いモデルです。
ただし、それは Pro と比べた場合の話であり、消費者向け単体GPUモデルではありません。&lt;/p&gt;
&lt;p&gt;以下では、公式の 159.61GB 重みサイズを基準にしています。
Q4/Q3/Q2 はビット幅からの推定であり、安定した公式 GGUF 版が存在することを意味しません。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;版 / 量子化&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;推定重みサイズ&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;最低VRAM&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;安全なVRAM目安&lt;/th&gt;
          &lt;th&gt;向く用途&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;FP8 / 公式重み&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;159.61GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;192GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;256GB&lt;/td&gt;
          &lt;td&gt;多GPUサーバー、推論サービス&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q6&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;120GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;160GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;192GB&lt;/td&gt;
          &lt;td&gt;品質優先の量子化実験&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q5&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;100GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;128GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;160GB&lt;/td&gt;
          &lt;td&gt;品質とサイズのバランス&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q4&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;80GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;96GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;128GB&lt;/td&gt;
          &lt;td&gt;Flash ローカル化の比較的現実的な出発点&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q3&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;60GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;80GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;96GB&lt;/td&gt;
          &lt;td&gt;大容量VRAM単体GPUまたは多GPU実験&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q2&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;40GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;48GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;64GB&lt;/td&gt;
          &lt;td&gt;極限低ビット実験。品質リスクは大きい&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;将来、成熟した &lt;code&gt;V4-Flash Q4&lt;/code&gt; が出たとしても、24GB GPU向けのモデルにはなりにくいです。
より現実的な出発点は、96GB〜128GB 級の総VRAM、または速度を犠牲にした CPU/offload 構成です。&lt;/p&gt;
&lt;h2 id=&#34;deepseek-v4-pro-のvram見積もり&#34;&gt;DeepSeek V4 Pro のVRAM見積もり
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;V4-Pro&lt;/code&gt; は旗艦推論版で、公式重みサイズは約 864.70GB です。
4-bit 量子化をしても、完全な重みは数百GB級のままです。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;版 / 量子化&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;推定重みサイズ&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;最低VRAM&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;安全なVRAM目安&lt;/th&gt;
          &lt;th&gt;向く用途&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;FP8 / 公式重み&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;864.70GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1TB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1.2TB+&lt;/td&gt;
          &lt;td&gt;多ノードまたは多GPU推論サービス&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q6&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;648GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;768GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1TB&lt;/td&gt;
          &lt;td&gt;高品質な量子化サービス&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q5&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;540GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;640GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;768GB&lt;/td&gt;
          &lt;td&gt;品質とコストのバランス&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q4&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;432GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;512GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;640GB&lt;/td&gt;
          &lt;td&gt;Pro ローカル化で現実的な最低品質ライン&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q3&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;324GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;384GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;512GB&lt;/td&gt;
          &lt;td&gt;低ビット実験&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q2&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;216GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;256GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;320GB&lt;/td&gt;
          &lt;td&gt;極限実験。品質と安定性のリスクが高い&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;個人ユーザーにとって、&lt;code&gt;V4-Pro&lt;/code&gt; は API 経由で使うほうが現実的です。
完全なローカル実行を目指すなら、4090、5090、RTX PRO 単体GPUではなく、多GPUサーバーモデルとして考えるべきです。&lt;/p&gt;
&lt;h2 id=&#34;deepseek-v4-flash-base-のvram見積もり&#34;&gt;DeepSeek V4 Flash-Base のVRAM見積もり
&lt;/h2&gt;&lt;p&gt;Base 版は通常、研究、微調整、継続学習向けであり、普通のチャット用途の第一候補ではありません。
&lt;code&gt;V4-Flash-Base&lt;/code&gt; の公式重みサイズは約 294.67GB です。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;版 / 量子化&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;推定重みサイズ&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;最低VRAM&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;安全なVRAM目安&lt;/th&gt;
          &lt;th&gt;向く用途&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;FP8 / 公式重み&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;294.67GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;384GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;512GB&lt;/td&gt;
          &lt;td&gt;研究、前処理、評価&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q6&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;221GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;256GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;320GB&lt;/td&gt;
          &lt;td&gt;高品質量子化研究&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q5&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;184GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;224GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;256GB&lt;/td&gt;
          &lt;td&gt;品質とサイズのバランス&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q4&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;147GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;192GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;224GB&lt;/td&gt;
          &lt;td&gt;低コストな Base 版実験&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q3&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;111GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;128GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;160GB&lt;/td&gt;
          &lt;td&gt;低ビット実験&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q2&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;74GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;96GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;128GB&lt;/td&gt;
          &lt;td&gt;極限実験&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;DeepSeek V4 の能力を使いたいだけなら、Base 版から始めることはおすすめしません。
Base 版はデプロイと調整のコストが高く、通常のアプリケーションには推論版または API のほうが向いています。&lt;/p&gt;
&lt;h2 id=&#34;deepseek-v4-pro-base-のvram見積もり&#34;&gt;DeepSeek V4 Pro-Base のVRAM見積もり
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;V4-Pro-Base&lt;/code&gt; は最も重いバージョンで、公式重みサイズは約 1606.03GB です。
これはすでに 1.6TB クラスのモデルファイルです。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;版 / 量子化&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;推定重みサイズ&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;最低VRAM&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;安全なVRAM目安&lt;/th&gt;
          &lt;th&gt;向く用途&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;FP8 / 公式重み&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1606.03GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;2TB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;2.4TB+&lt;/td&gt;
          &lt;td&gt;大規模研究クラスタ&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q6&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1205GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1.5TB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;2TB&lt;/td&gt;
          &lt;td&gt;高品質量子化研究&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q5&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1004GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1.2TB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1.5TB&lt;/td&gt;
          &lt;td&gt;研究と評価&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q4&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;803GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1TB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1.2TB&lt;/td&gt;
          &lt;td&gt;低ビット研究&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q3&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;602GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;768GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1TB&lt;/td&gt;
          &lt;td&gt;極限低ビット研究&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q2&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;402GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;512GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;640GB&lt;/td&gt;
          &lt;td&gt;極限実験&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;この種のモデルは、「家庭用GPUで動くか」という枠組みで考える対象ではありません。
Q4 であっても、ほとんどの単体ワークステーションの快適な範囲を超えています。&lt;/p&gt;
&lt;h2 id=&#34;active-params-だけを見てはいけない理由&#34;&gt;active params だけを見てはいけない理由
&lt;/h2&gt;&lt;p&gt;DeepSeek V4 は MoE モデルです。
MoE では各 token が一部の専門家だけを有効化するため、計算量は総パラメータ数よりかなり小さくなります。
しかし、それはVRAMに active params だけを載せればよいという意味ではありません。&lt;/p&gt;
&lt;p&gt;完全なローカル推論では、次の要素も考える必要があります。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;すべての専門家重みをGPUに常駐させる必要があるか。&lt;/li&gt;
&lt;li&gt;専門家のオンデマンド読み込みに対応しているか。&lt;/li&gt;
&lt;li&gt;CPUメモリとGPU VRAM間のデータ転送コスト。&lt;/li&gt;
&lt;li&gt;NVMe offload の遅延。&lt;/li&gt;
&lt;li&gt;長コンテキストで増える KV cache。&lt;/li&gt;
&lt;li&gt;1M context 実行時の追加ランタイムコスト。&lt;/li&gt;
&lt;li&gt;多ノード・多GPU通信コスト。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;したがって、&lt;code&gt;49B active&lt;/code&gt; の &lt;code&gt;V4-Pro&lt;/code&gt; を 49B モデルとして扱ってはいけません。
&lt;code&gt;13B active&lt;/code&gt; の &lt;code&gt;V4-Flash&lt;/code&gt; も、13B 小型モデルとして扱うべきではありません。&lt;/p&gt;
&lt;h2 id=&#34;どう選ぶか&#34;&gt;どう選ぶか
&lt;/h2&gt;&lt;p&gt;普通の個人ユーザーなら：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;DeepSeek V4 を完全にローカル実行することはおすすめしません。&lt;/li&gt;
&lt;li&gt;DeepSeek V4 の能力が必要なら、まず公式 API を使う。&lt;/li&gt;
&lt;li&gt;ローカル私有化が必要なら、成熟した推論サービス基盤や社内多GPUサーバーがあるかを先に確認する。&lt;/li&gt;
&lt;li&gt;24GB〜48GB VRAM しかない場合は、7B、14B、32B、70B 級の量子化モデルのほうが現実的です。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;128GB〜256GB の総VRAMがある場合：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;V4-Flash Q4/Q5&lt;/code&gt; の安定したコミュニティ実装を注視する。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;V4-Pro&lt;/code&gt; を主力ローカルモデルとして扱うのはおすすめしません。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;512GB 以上の総VRAMがある場合：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;V4-Pro Q4&lt;/code&gt; がようやく工学的な検証対象になります。&lt;/li&gt;
&lt;li&gt;それでも推論フレームワーク、専門家スケジューリング、KV cache、スループット、並列性を確認する必要があります。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;DeepSeek V4 のローカル部署で重要なのは、「どの量子化ファイルをダウンロードするか」ではありません。
「このモデルを支えるだけのシステムレベルの推論能力があるか」です。
これはデスクトップモデルというより、サーバーモデルに近い存在です。&lt;/p&gt;
&lt;h2 id=&#34;参考元&#34;&gt;参考元
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://api-docs.deepseek.com/news/news260424&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;DeepSeek V4 Preview Release - DeepSeek API Docs&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/collections/deepseek-ai/deepseek-v4&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;DeepSeek-V4 collection - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;deepseek-ai/DeepSeek-V4-Pro - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;deepseek-ai/DeepSeek-V4-Flash - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;deepseek-ai/DeepSeek-V4-Pro-Base - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;deepseek-ai/DeepSeek-V4-Flash-Base - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        
    </channel>
</rss>
