<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>VRAM on KnightLiブログ</title>
        <link>https://www.knightli.com/ja/tags/vram/</link>
        <description>Recent content in VRAM on KnightLiブログ</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>ja</language>
        <lastBuildDate>Fri, 01 May 2026 12:02:00 +0800</lastBuildDate><atom:link href="https://www.knightli.com/ja/tags/vram/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>Qwen3.6 をローカルで動かす：27B と 35B-A3B の量子化版に必要なVRAM</title>
        <link>https://www.knightli.com/ja/2026/05/01/qwen3-6-local-vram-quantization-table/</link>
        <pubDate>Fri, 01 May 2026 12:02:00 +0800</pubDate>
        
        <guid>https://www.knightli.com/ja/2026/05/01/qwen3-6-local-vram-quantization-table/</guid>
        <description>&lt;p&gt;Qwen3.6 でローカル部署の対象として特に重要な公開重み版は、主に次の2つです。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Qwen3.6-27B&lt;/code&gt;：27B の dense モデル。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Qwen3.6-35B-A3B&lt;/code&gt;：35B total / 3B active の MoE モデル。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;code&gt;Qwen3.6-Plus&lt;/code&gt; や &lt;code&gt;Qwen3.6-Max&lt;/code&gt; のようなオンライン製品名や API モデル名もあります。
ただし、完全な公開重みと安定した量子化ファイルがないモデルは、ローカルVRAM表には向きません。
この記事では、Hugging Face の重みと GGUF 量子化ファイルをもとに部署できるバージョンだけを扱います。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;/05/10&lt;/code&gt; の Gemma 4 表と同じように、まず次の2つを分けて考える必要があります。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;GGUF ファイルサイズ&lt;/strong&gt;：モデル重みファイルそのものの大きさ。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;実際のVRAM使用量&lt;/strong&gt;：重み、KV cache、コンテキスト長、ランタイムバックエンド、マルチモーダルモジュール、バッチサイズで決まる。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Qwen3.6 は標準のコンテキストが非常に長く、公式モデルカードでは &lt;code&gt;262,144&lt;/code&gt; tokens をネイティブでサポートし、&lt;code&gt;1,010,000&lt;/code&gt; tokens まで拡張可能とされています。
そのため、表の「最低VRAM」は短い、または中程度のコンテキストを前提にした目安です。
128K、256K、またはそれ以上のコンテキストを本当に使う場合は、KV cache 用にかなり多くの余裕が必要です。&lt;/p&gt;
&lt;h2 id=&#34;まず結論&#34;&gt;まず結論
&lt;/h2&gt;&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;VRAM&lt;/th&gt;
          &lt;th&gt;比較的向く選択&lt;/th&gt;
          &lt;th&gt;避けたい選択&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;8GB&lt;/td&gt;
          &lt;td&gt;27B / 35B-A3B の 2-bit 極限テスト。品質リスクは高い&lt;/td&gt;
          &lt;td&gt;Q4 以上&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;12GB&lt;/td&gt;
          &lt;td&gt;27B Q2/Q3、35B-A3B Q2/Q3 の短コンテキスト&lt;/td&gt;
          &lt;td&gt;27B Q4 の長コンテキスト&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;16GB&lt;/td&gt;
          &lt;td&gt;27B Q3/Q4、35B-A3B Q3/IQ4_XS&lt;/td&gt;
          &lt;td&gt;35B-A3B Q4 の長コンテキスト&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;24GB&lt;/td&gt;
          &lt;td&gt;27B Q4/Q5/Q6、35B-A3B Q4&lt;/td&gt;
          &lt;td&gt;35B-A3B Q8、BF16&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;32GB&lt;/td&gt;
          &lt;td&gt;27B Q8、35B-A3B Q5/Q6&lt;/td&gt;
          &lt;td&gt;BF16&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;48GB&lt;/td&gt;
          &lt;td&gt;35B-A3B Q8、27B の長めのコンテキストをより余裕を持って実行&lt;/td&gt;
          &lt;td&gt;35B-A3B BF16&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;80GB+&lt;/td&gt;
          &lt;td&gt;27B / 35B-A3B BF16&lt;/td&gt;
          &lt;td&gt;通常のローカルチャットで BF16 を追う必要はない&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;24GB GPU なら、重点的に見るべきなのは次の3つです。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Qwen3.6-27B Q4_K_M&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Qwen3.6-27B Q5_K_M&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Qwen3.6-35B-A3B UD-Q4_K_M&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;16GB VRAM しかない場合は、低ビット幅版から始め、いきなり超長コンテキストを使わないほうが安全です。&lt;/p&gt;
&lt;h2 id=&#34;公式重みサイズ&#34;&gt;公式重みサイズ
&lt;/h2&gt;&lt;p&gt;以下は、公式 Hugging Face リポジトリの &lt;code&gt;model.safetensors.index.json&lt;/code&gt; から確認できる BF16 重みサイズです。
元のモデル規模を見るための参考になります。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;モデル&lt;/th&gt;
          &lt;th&gt;アーキテクチャ&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;公式 BF16 重みサイズ&lt;/th&gt;
          &lt;th&gt;公式コンテキスト&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Qwen3.6-27B&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;27B dense&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;55.56GB&lt;/td&gt;
          &lt;td&gt;ネイティブ 262K、1,010K まで拡張可能&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Qwen3.6-35B-A3B&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;35B total / 3B active MoE&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;71.90GB&lt;/td&gt;
          &lt;td&gt;ネイティブ 262K、1,010K まで拡張可能&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;&lt;code&gt;35B-A3B&lt;/code&gt; は各ステップで約 3B パラメータだけを有効化しますが、完全な MoE 重みを読み込む必要があります。
そのため、3B 小型モデルのようにVRAMを見積もることはできません。&lt;/p&gt;
&lt;h2 id=&#34;qwen36-27b-vram表&#34;&gt;Qwen3.6-27B VRAM表
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;Qwen3.6-27B&lt;/code&gt; は dense モデルで、安定した挙動が強みです。一方で推論コストは従来の 27B モデルに近くなります。
ローカル部署の観点では、35B-A3B より計算量は重いものの、VRAM要件は見積もりやすいです。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;量子化版&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;GGUF ファイルサイズ&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;最低VRAM&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;安全なVRAM目安&lt;/th&gt;
          &lt;th&gt;向く用途&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-IQ2_XXS&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;9.39GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;12GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;16GB&lt;/td&gt;
          &lt;td&gt;極限低VRAMテスト&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-IQ2_M&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;10.85GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;12GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;16GB&lt;/td&gt;
          &lt;td&gt;低VRAMでの可用性優先&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-Q2_K_XL&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;11.85GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;14GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;18GB&lt;/td&gt;
          &lt;td&gt;低ビット幅の折衷案&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-IQ3_XXS&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;11.99GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;14GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;18GB&lt;/td&gt;
          &lt;td&gt;VRAMを抑えた 3-bit&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q3_K_S&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;12.36GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;16GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;20GB&lt;/td&gt;
          &lt;td&gt;3-bit 入門&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q3_K_M&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;13.59GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;16GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;20GB&lt;/td&gt;
          &lt;td&gt;3-bit の一般的な折衷案&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;IQ4_XS&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;15.44GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;20GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;24GB&lt;/td&gt;
          &lt;td&gt;Q4 に近い省VRAM選択&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;IQ4_NL&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;16.07GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;20GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;24GB&lt;/td&gt;
          &lt;td&gt;品質とサイズのバランス&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q4_K_M&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;16.82GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;20GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;24GB&lt;/td&gt;
          &lt;td&gt;27B の標準的なおすすめ&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q5_K_M&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;19.51GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;24GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;32GB&lt;/td&gt;
          &lt;td&gt;より高品質な量子化&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q6_K&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;22.52GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;28GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;32GB&lt;/td&gt;
          &lt;td&gt;品質優先&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q8_0&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;28.60GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;32GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;40GB&lt;/td&gt;
          &lt;td&gt;原精度に近い実行&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;BF16&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;53.80GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;64GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;80GB&lt;/td&gt;
          &lt;td&gt;研究、評価、精度比較&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;普通のローカルコーディングやチャットなら、&lt;code&gt;Q4_K_M&lt;/code&gt; が最もおすすめしやすい出発点です。
24GB GPU なら &lt;code&gt;Q4_K_M&lt;/code&gt; は比較的快適に動かせますが、長いコンテキストを使う場合は量子化サイズかコンテキスト長を下げるほうが安全です。&lt;/p&gt;
&lt;h2 id=&#34;qwen36-35b-a3b-vram表&#34;&gt;Qwen3.6-35B-A3B VRAM表
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;Qwen3.6-35B-A3B&lt;/code&gt; は MoE モデルで、35B total、各ステップで約 3B パラメータを有効化します。
速度と能力のバランスがよく、特にローカル Agent、ツール呼び出し、コード作業に向いています。&lt;/p&gt;
&lt;p&gt;ただし、MoE の &lt;code&gt;3B active&lt;/code&gt; は主に計算量に効くものであり、VRAMが 3B モデル相当で済むという意味ではありません。
完全に動かすには専門家重みを読み込む必要があります。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;量子化版&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;GGUF ファイルサイズ&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;最低VRAM&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;安全なVRAM目安&lt;/th&gt;
          &lt;th&gt;向く用途&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-IQ2_XXS&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;10.76GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;12GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;16GB&lt;/td&gt;
          &lt;td&gt;極限低VRAMテスト&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-IQ2_M&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;11.52GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;14GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;16GB&lt;/td&gt;
          &lt;td&gt;低VRAMでの可用性優先&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-Q2_K_XL&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;12.29GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;14GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;18GB&lt;/td&gt;
          &lt;td&gt;低ビット幅の折衷案&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-IQ3_XXS&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;13.21GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;16GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;20GB&lt;/td&gt;
          &lt;td&gt;VRAMを抑えた 3-bit&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-Q3_K_S&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;15.36GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;18GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;24GB&lt;/td&gt;
          &lt;td&gt;3-bit 入門&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-Q3_K_M&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;16.60GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;20GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;24GB&lt;/td&gt;
          &lt;td&gt;3-bit の一般的な折衷案&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-IQ4_XS&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;17.73GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;20GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;24GB&lt;/td&gt;
          &lt;td&gt;品質とサイズのバランス&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-IQ4_NL&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;18.04GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;20GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;24GB&lt;/td&gt;
          &lt;td&gt;Q4 に近いおすすめ選択&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-Q4_K_M&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;22.13GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;24GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;32GB&lt;/td&gt;
          &lt;td&gt;35B-A3B の標準的なおすすめ&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-Q5_K_M&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;26.46GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;32GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;40GB&lt;/td&gt;
          &lt;td&gt;より高品質な量子化&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-Q6_K&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;29.31GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;32GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;48GB&lt;/td&gt;
          &lt;td&gt;品質優先&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q8_0&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;36.90GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;48GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;64GB&lt;/td&gt;
          &lt;td&gt;原精度に近い実行&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;BF16&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;69.37GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;80GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;96GB&lt;/td&gt;
          &lt;td&gt;研究、評価、精度比較&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;24GB VRAM なら &lt;code&gt;UD-Q4_K_M&lt;/code&gt; が有力ですが、コンテキストは上げすぎないほうがよいです。
128K 以上のコンテキストに余裕を残したい場合、&lt;code&gt;UD-IQ4_XS&lt;/code&gt;、&lt;code&gt;UD-IQ4_NL&lt;/code&gt;、または 3-bit 版のほうが現実的です。&lt;/p&gt;
&lt;h2 id=&#34;27b-と-35b-a3b-の選び方&#34;&gt;27B と 35B-A3B の選び方
&lt;/h2&gt;&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;目的&lt;/th&gt;
          &lt;th&gt;よりおすすめ&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;dense モデルの安定性&lt;/td&gt;
          &lt;td&gt;&lt;code&gt;Qwen3.6-27B&lt;/code&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;速い応答、Agent、ツール呼び出し&lt;/td&gt;
          &lt;td&gt;&lt;code&gt;Qwen3.6-35B-A3B&lt;/code&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;24GB VRAM での日常ローカル利用&lt;/td&gt;
          &lt;td&gt;&lt;code&gt;35B-A3B UD-Q4_K_M&lt;/code&gt; または &lt;code&gt;27B Q4_K_M&lt;/code&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;16GB VRAM での試用&lt;/td&gt;
          &lt;td&gt;どちらも 2-bit/3-bit。長コンテキストは避ける&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;長コンテキスト優先&lt;/td&gt;
          &lt;td&gt;低ビット量子化にして KV cache の余裕を残す&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;32GB+ VRAM で品質優先&lt;/td&gt;
          &lt;td&gt;&lt;code&gt;27B Q5/Q6&lt;/code&gt; または &lt;code&gt;35B-A3B Q5/Q6&lt;/code&gt;&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;コードを書いたり、Agent を動かしたり、ツール呼び出しを使うなら、&lt;code&gt;35B-A3B&lt;/code&gt; を先に試す価値があります。
dense モデルの安定性や一貫性を重視するなら、&lt;code&gt;27B&lt;/code&gt; のほうがわかりやすい選択です。&lt;/p&gt;
&lt;h2 id=&#34;長コンテキストが大量のvramを使う理由&#34;&gt;長コンテキストが大量のVRAMを使う理由
&lt;/h2&gt;&lt;p&gt;Qwen3.6 のモデルカードでは、複雑なタスクで長めのコンテキストを保つことが推奨されており、128K 以上のコンテキストが思考能力に役立つとも述べられています。
しかしローカル部署では、長コンテキストは大きな &lt;code&gt;KV cache&lt;/code&gt; を意味します。&lt;/p&gt;
&lt;p&gt;実際のVRAM使用量に影響する要素は次の通りです。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;KV cache&lt;/code&gt;：コンテキストが長いほど使用量が増える。&lt;/li&gt;
&lt;li&gt;視覚入力を有効にするかどうか：Qwen3.6 は視覚エンコーダを持つため、マルチモーダル利用では追加コストがある。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;--language-model-only&lt;/code&gt; を使うかどうか：vLLM などでは、視覚部分をスキップすると KV cache 用のメモリを一部空けられる。&lt;/li&gt;
&lt;li&gt;バッチサイズと並列性：並列性が高いほどVRAM要求も高くなる。&lt;/li&gt;
&lt;li&gt;KV cache 量子化：&lt;code&gt;q8_0&lt;/code&gt;、&lt;code&gt;q4_0&lt;/code&gt; などはVRAMを節約できるが、細部に影響する場合がある。&lt;/li&gt;
&lt;li&gt;ランタイム差：llama.cpp、vLLM、SGLang、KTransformers、LM Studio の使用量は完全には同じではない。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;そのため、GGUF ファイルサイズだけを見てはいけません。
ファイルがすでにVRAM上限に近い場合、モデルは読み込めても、長い出力や長コンテキスト生成で OOM になる可能性があります。&lt;/p&gt;
&lt;h2 id=&#34;どう選ぶか&#34;&gt;どう選ぶか
&lt;/h2&gt;&lt;p&gt;ローカルで Qwen3.6 を試したいだけなら：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;12GB VRAM：&lt;code&gt;27B UD-IQ2_M&lt;/code&gt; または &lt;code&gt;35B-A3B UD-IQ2_M&lt;/code&gt;。コンテキストは短くする。&lt;/li&gt;
&lt;li&gt;16GB VRAM：&lt;code&gt;27B Q3_K_M&lt;/code&gt; または &lt;code&gt;35B-A3B UD-IQ3_XXS&lt;/code&gt;。&lt;/li&gt;
&lt;li&gt;24GB VRAM：&lt;code&gt;27B Q4_K_M&lt;/code&gt;、&lt;code&gt;35B-A3B UD-IQ4_NL&lt;/code&gt;、&lt;code&gt;35B-A3B UD-Q4_K_M&lt;/code&gt; を優先。&lt;/li&gt;
&lt;li&gt;32GB VRAM：&lt;code&gt;27B Q5/Q6&lt;/code&gt; または &lt;code&gt;35B-A3B Q5/Q6&lt;/code&gt; を検討。&lt;/li&gt;
&lt;li&gt;48GB 以上：&lt;code&gt;Q8_0&lt;/code&gt; を試すか、長コンテキスト用に余裕を残す。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;多くのユーザーに BF16 は不要です。
Qwen3.6 のローカル部署で重要なのは、ファイルサイズの大きさではなく、VRAM、コンテキスト長、速度、出力品質のバランスです。&lt;/p&gt;
&lt;h2 id=&#34;参考元&#34;&gt;参考元
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/Qwen/Qwen3.6-27B&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Qwen/Qwen3.6-27B - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/Qwen/Qwen3.6-35B-A3B&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Qwen/Qwen3.6-35B-A3B - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/Qwen/Qwen3.6-27B-FP8&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Qwen/Qwen3.6-27B-FP8 - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/Qwen/Qwen3.6-35B-A3B-FP8&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Qwen/Qwen3.6-35B-A3B-FP8 - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/unsloth/Qwen3.6-27B-GGUF&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;unsloth/Qwen3.6-27B-GGUF - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/unsloth/Qwen3.6-35B-A3B-GGUF&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;unsloth/Qwen3.6-35B-A3B-GGUF - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>DeepSeek V4 をローカルで動かす：Pro、Flash、Base 版のVRAM使用量見積もり</title>
        <link>https://www.knightli.com/ja/2026/05/01/deepseek-v4-local-vram-quantization-table/</link>
        <pubDate>Fri, 01 May 2026 11:55:25 +0800</pubDate>
        
        <guid>https://www.knightli.com/ja/2026/05/01/deepseek-v4-local-vram-quantization-table/</guid>
        <description>&lt;p&gt;DeepSeek V4 と Gemma 4 は、ローカル実行の難度がまったく違います。
Gemma 4 の 26B や 31B なら、24GB や 32GB のGPUでどの量子化版を選ぶかをまだ議論できます。DeepSeek V4 は巨大な MoE モデルであり、完全なローカル実行では多GPUワークステーションやサーバー級のVRAMが必要になります。&lt;/p&gt;
&lt;p&gt;公式の DeepSeek V4 Preview には、主に2つの推論モデルがあります。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;DeepSeek-V4-Pro&lt;/code&gt;：&lt;code&gt;1.6T total / 49B active params&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;DeepSeek-V4-Flash&lt;/code&gt;：&lt;code&gt;284B total / 13B active params&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Hugging Face の公式 collection には、さらに2つの Base モデルも含まれています。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;DeepSeek-V4-Pro-Base&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;DeepSeek-V4-Flash-Base&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;この記事では、&lt;strong&gt;モデル重みを完全に読み込む&lt;/strong&gt;場合のおおまかなVRAM要件だけを扱います。
MoE の &lt;code&gt;active params&lt;/code&gt; は主に各 token の計算量に効くものであり、その分のパラメータだけを読み込めばよいという意味ではありません。
専門家のオンデマンド読み込み、CPU/NVMe offload、分散推論、専用ランタイム最適化がない場合、VRAMは基本的に完全な重みサイズを基準に見積もる必要があります。&lt;/p&gt;
&lt;h2 id=&#34;まず結論&#34;&gt;まず結論
&lt;/h2&gt;&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;VRAM規模&lt;/th&gt;
          &lt;th&gt;比較的現実的に試せるもの&lt;/th&gt;
          &lt;th&gt;期待しないほうがよいもの&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;24GB&lt;/td&gt;
          &lt;td&gt;DeepSeek V4 の完全実行は不可。小型蒸留モデルまたはAPI向け&lt;/td&gt;
          &lt;td&gt;V4-Flash / V4-Pro の完全ローカル読み込み&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;48GB&lt;/td&gt;
          &lt;td&gt;まだ完全読み込みには不向き。小型モデルやリモートAPIクライアント向け&lt;/td&gt;
          &lt;td&gt;V4-Flash Q4 の安定実行&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;80GB&lt;/td&gt;
          &lt;td&gt;理論上 V4-Flash Q2/Q3 や強い offload を試せる&lt;/td&gt;
          &lt;td&gt;V4-Pro&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;128GB&lt;/td&gt;
          &lt;td&gt;V4-Flash Q4 が比較的現実的。Q5/Q6 はまだ厳しい&lt;/td&gt;
          &lt;td&gt;V4-Pro Q4&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;192GB&lt;/td&gt;
          &lt;td&gt;V4-Flash FP8/Q6 は余裕が出る。Pro Q2 は実験範囲&lt;/td&gt;
          &lt;td&gt;V4-Pro Q4&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;256GB&lt;/td&gt;
          &lt;td&gt;V4-Flash FP8 はかなり安定。Pro Q2/Q3 は実験可能&lt;/td&gt;
          &lt;td&gt;V4-Pro Q5 以上&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;512GB&lt;/td&gt;
          &lt;td&gt;V4-Pro Q4 が議論できる範囲に入る&lt;/td&gt;
          &lt;td&gt;V4-Pro FP8&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;1TB+&lt;/td&gt;
          &lt;td&gt;V4-Pro FP8、Pro-Base の低ビット幅がより現実的&lt;/td&gt;
          &lt;td&gt;低コスト単体マシン運用&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;2TB+&lt;/td&gt;
          &lt;td&gt;Pro-Base FP8 クラス&lt;/td&gt;
          &lt;td&gt;普通のワークステーション運用&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;個人PCでローカル実行することが目的なら、DeepSeek V4 は適切な対象ではありません。
より現実的な選択肢は次の通りです。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;DeepSeek 公式 API または互換サービスを使う。&lt;/li&gt;
&lt;li&gt;安定したコミュニティ製 GGUF/EXL2/MLX 量子化と推論サポートを待つ。&lt;/li&gt;
&lt;li&gt;より小さな DeepSeek 蒸留モデルを使う。&lt;/li&gt;
&lt;li&gt;Qwen、Gemma、Llama などの 7B〜70B 級ローカルモデルを使う。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;公式重みサイズ&#34;&gt;公式重みサイズ
&lt;/h2&gt;&lt;p&gt;以下は Hugging Face 公式リポジトリの &lt;code&gt;model.safetensors.index.json&lt;/code&gt; から確認できる重み総量です。
これは現在公開されている重みファイルのサイズであり、長いコンテキスト実行時の完全なVRAM使用量ではありません。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;モデル&lt;/th&gt;
          &lt;th&gt;パラメータ規模&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;公式重みサイズ&lt;/th&gt;
          &lt;th&gt;説明&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;DeepSeek-V4-Flash&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;284B total / 13B active&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;159.61GB&lt;/td&gt;
          &lt;td&gt;推論版。この中では最小&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;DeepSeek-V4-Pro&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;1.6T total / 49B active&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;864.70GB&lt;/td&gt;
          &lt;td&gt;推論版。より強力だが非常に大きい&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;DeepSeek-V4-Flash-Base&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;284B total&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;294.67GB&lt;/td&gt;
          &lt;td&gt;Base 版。全量 FP8 重みに近いサイズ&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;DeepSeek-V4-Pro-Base&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;1.6T total&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1606.03GB&lt;/td&gt;
          &lt;td&gt;Base 版。約 1.6TB クラス&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;最小の &lt;code&gt;V4-Flash&lt;/code&gt; でも、公式重みはすでに約 160GB あります。
そのため、&lt;code&gt;13B active params&lt;/code&gt; だからといって 13B 小型モデルのようには扱えません。&lt;/p&gt;
&lt;h2 id=&#34;deepseek-v4-flash-のvram見積もり&#34;&gt;DeepSeek V4 Flash のVRAM見積もり
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;V4-Flash&lt;/code&gt; は DeepSeek V4 の中では最もローカル実験に近いモデルです。
ただし、それは Pro と比べた場合の話であり、消費者向け単体GPUモデルではありません。&lt;/p&gt;
&lt;p&gt;以下では、公式の 159.61GB 重みサイズを基準にしています。
Q4/Q3/Q2 はビット幅からの推定であり、安定した公式 GGUF 版が存在することを意味しません。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;版 / 量子化&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;推定重みサイズ&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;最低VRAM&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;安全なVRAM目安&lt;/th&gt;
          &lt;th&gt;向く用途&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;FP8 / 公式重み&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;159.61GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;192GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;256GB&lt;/td&gt;
          &lt;td&gt;多GPUサーバー、推論サービス&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q6&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;120GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;160GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;192GB&lt;/td&gt;
          &lt;td&gt;品質優先の量子化実験&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q5&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;100GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;128GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;160GB&lt;/td&gt;
          &lt;td&gt;品質とサイズのバランス&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q4&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;80GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;96GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;128GB&lt;/td&gt;
          &lt;td&gt;Flash ローカル化の比較的現実的な出発点&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q3&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;60GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;80GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;96GB&lt;/td&gt;
          &lt;td&gt;大容量VRAM単体GPUまたは多GPU実験&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q2&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;40GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;48GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;64GB&lt;/td&gt;
          &lt;td&gt;極限低ビット実験。品質リスクは大きい&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;将来、成熟した &lt;code&gt;V4-Flash Q4&lt;/code&gt; が出たとしても、24GB GPU向けのモデルにはなりにくいです。
より現実的な出発点は、96GB〜128GB 級の総VRAM、または速度を犠牲にした CPU/offload 構成です。&lt;/p&gt;
&lt;h2 id=&#34;deepseek-v4-pro-のvram見積もり&#34;&gt;DeepSeek V4 Pro のVRAM見積もり
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;V4-Pro&lt;/code&gt; は旗艦推論版で、公式重みサイズは約 864.70GB です。
4-bit 量子化をしても、完全な重みは数百GB級のままです。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;版 / 量子化&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;推定重みサイズ&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;最低VRAM&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;安全なVRAM目安&lt;/th&gt;
          &lt;th&gt;向く用途&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;FP8 / 公式重み&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;864.70GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1TB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1.2TB+&lt;/td&gt;
          &lt;td&gt;多ノードまたは多GPU推論サービス&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q6&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;648GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;768GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1TB&lt;/td&gt;
          &lt;td&gt;高品質な量子化サービス&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q5&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;540GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;640GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;768GB&lt;/td&gt;
          &lt;td&gt;品質とコストのバランス&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q4&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;432GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;512GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;640GB&lt;/td&gt;
          &lt;td&gt;Pro ローカル化で現実的な最低品質ライン&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q3&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;324GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;384GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;512GB&lt;/td&gt;
          &lt;td&gt;低ビット実験&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q2&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;216GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;256GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;320GB&lt;/td&gt;
          &lt;td&gt;極限実験。品質と安定性のリスクが高い&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;個人ユーザーにとって、&lt;code&gt;V4-Pro&lt;/code&gt; は API 経由で使うほうが現実的です。
完全なローカル実行を目指すなら、4090、5090、RTX PRO 単体GPUではなく、多GPUサーバーモデルとして考えるべきです。&lt;/p&gt;
&lt;h2 id=&#34;deepseek-v4-flash-base-のvram見積もり&#34;&gt;DeepSeek V4 Flash-Base のVRAM見積もり
&lt;/h2&gt;&lt;p&gt;Base 版は通常、研究、微調整、継続学習向けであり、普通のチャット用途の第一候補ではありません。
&lt;code&gt;V4-Flash-Base&lt;/code&gt; の公式重みサイズは約 294.67GB です。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;版 / 量子化&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;推定重みサイズ&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;最低VRAM&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;安全なVRAM目安&lt;/th&gt;
          &lt;th&gt;向く用途&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;FP8 / 公式重み&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;294.67GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;384GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;512GB&lt;/td&gt;
          &lt;td&gt;研究、前処理、評価&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q6&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;221GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;256GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;320GB&lt;/td&gt;
          &lt;td&gt;高品質量子化研究&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q5&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;184GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;224GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;256GB&lt;/td&gt;
          &lt;td&gt;品質とサイズのバランス&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q4&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;147GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;192GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;224GB&lt;/td&gt;
          &lt;td&gt;低コストな Base 版実験&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q3&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;111GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;128GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;160GB&lt;/td&gt;
          &lt;td&gt;低ビット実験&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q2&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;74GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;96GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;128GB&lt;/td&gt;
          &lt;td&gt;極限実験&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;DeepSeek V4 の能力を使いたいだけなら、Base 版から始めることはおすすめしません。
Base 版はデプロイと調整のコストが高く、通常のアプリケーションには推論版または API のほうが向いています。&lt;/p&gt;
&lt;h2 id=&#34;deepseek-v4-pro-base-のvram見積もり&#34;&gt;DeepSeek V4 Pro-Base のVRAM見積もり
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;V4-Pro-Base&lt;/code&gt; は最も重いバージョンで、公式重みサイズは約 1606.03GB です。
これはすでに 1.6TB クラスのモデルファイルです。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;版 / 量子化&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;推定重みサイズ&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;最低VRAM&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;安全なVRAM目安&lt;/th&gt;
          &lt;th&gt;向く用途&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;FP8 / 公式重み&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1606.03GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;2TB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;2.4TB+&lt;/td&gt;
          &lt;td&gt;大規模研究クラスタ&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q6&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1205GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1.5TB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;2TB&lt;/td&gt;
          &lt;td&gt;高品質量子化研究&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q5&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1004GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1.2TB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1.5TB&lt;/td&gt;
          &lt;td&gt;研究と評価&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q4&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;803GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1TB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1.2TB&lt;/td&gt;
          &lt;td&gt;低ビット研究&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q3&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;602GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;768GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1TB&lt;/td&gt;
          &lt;td&gt;極限低ビット研究&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q2&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;402GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;512GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;640GB&lt;/td&gt;
          &lt;td&gt;極限実験&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;この種のモデルは、「家庭用GPUで動くか」という枠組みで考える対象ではありません。
Q4 であっても、ほとんどの単体ワークステーションの快適な範囲を超えています。&lt;/p&gt;
&lt;h2 id=&#34;active-params-だけを見てはいけない理由&#34;&gt;active params だけを見てはいけない理由
&lt;/h2&gt;&lt;p&gt;DeepSeek V4 は MoE モデルです。
MoE では各 token が一部の専門家だけを有効化するため、計算量は総パラメータ数よりかなり小さくなります。
しかし、それはVRAMに active params だけを載せればよいという意味ではありません。&lt;/p&gt;
&lt;p&gt;完全なローカル推論では、次の要素も考える必要があります。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;すべての専門家重みをGPUに常駐させる必要があるか。&lt;/li&gt;
&lt;li&gt;専門家のオンデマンド読み込みに対応しているか。&lt;/li&gt;
&lt;li&gt;CPUメモリとGPU VRAM間のデータ転送コスト。&lt;/li&gt;
&lt;li&gt;NVMe offload の遅延。&lt;/li&gt;
&lt;li&gt;長コンテキストで増える KV cache。&lt;/li&gt;
&lt;li&gt;1M context 実行時の追加ランタイムコスト。&lt;/li&gt;
&lt;li&gt;多ノード・多GPU通信コスト。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;したがって、&lt;code&gt;49B active&lt;/code&gt; の &lt;code&gt;V4-Pro&lt;/code&gt; を 49B モデルとして扱ってはいけません。
&lt;code&gt;13B active&lt;/code&gt; の &lt;code&gt;V4-Flash&lt;/code&gt; も、13B 小型モデルとして扱うべきではありません。&lt;/p&gt;
&lt;h2 id=&#34;どう選ぶか&#34;&gt;どう選ぶか
&lt;/h2&gt;&lt;p&gt;普通の個人ユーザーなら：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;DeepSeek V4 を完全にローカル実行することはおすすめしません。&lt;/li&gt;
&lt;li&gt;DeepSeek V4 の能力が必要なら、まず公式 API を使う。&lt;/li&gt;
&lt;li&gt;ローカル私有化が必要なら、成熟した推論サービス基盤や社内多GPUサーバーがあるかを先に確認する。&lt;/li&gt;
&lt;li&gt;24GB〜48GB VRAM しかない場合は、7B、14B、32B、70B 級の量子化モデルのほうが現実的です。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;128GB〜256GB の総VRAMがある場合：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;V4-Flash Q4/Q5&lt;/code&gt; の安定したコミュニティ実装を注視する。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;V4-Pro&lt;/code&gt; を主力ローカルモデルとして扱うのはおすすめしません。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;512GB 以上の総VRAMがある場合：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;V4-Pro Q4&lt;/code&gt; がようやく工学的な検証対象になります。&lt;/li&gt;
&lt;li&gt;それでも推論フレームワーク、専門家スケジューリング、KV cache、スループット、並列性を確認する必要があります。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;DeepSeek V4 のローカル部署で重要なのは、「どの量子化ファイルをダウンロードするか」ではありません。
「このモデルを支えるだけのシステムレベルの推論能力があるか」です。
これはデスクトップモデルというより、サーバーモデルに近い存在です。&lt;/p&gt;
&lt;h2 id=&#34;参考元&#34;&gt;参考元
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://api-docs.deepseek.com/news/news260424&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;DeepSeek V4 Preview Release - DeepSeek API Docs&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/collections/deepseek-ai/deepseek-v4&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;DeepSeek-V4 collection - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;deepseek-ai/DeepSeek-V4-Pro - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;deepseek-ai/DeepSeek-V4-Flash - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;deepseek-ai/DeepSeek-V4-Pro-Base - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;deepseek-ai/DeepSeek-V4-Flash-Base - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>Gemma 4 をローカルで動かす：E2B、E4B、26B、31B の量子化版に必要なVRAM</title>
        <link>https://www.knightli.com/ja/2026/05/01/gemma-4-local-vram-quantization-table/</link>
        <pubDate>Fri, 01 May 2026 11:42:34 +0800</pubDate>
        
        <guid>https://www.knightli.com/ja/2026/05/01/gemma-4-local-vram-quantization-table/</guid>
        <description>&lt;p&gt;Gemma 4 には、ローカル実行向けに主に &lt;code&gt;E2B&lt;/code&gt;、&lt;code&gt;E4B&lt;/code&gt;、&lt;code&gt;26B A4B&lt;/code&gt;、&lt;code&gt;31B&lt;/code&gt; の4サイズがあります。
&lt;code&gt;E2B&lt;/code&gt; と &lt;code&gt;E4B&lt;/code&gt; は軽量・エッジデバイス向け、&lt;code&gt;26B A4B&lt;/code&gt; は MoE アーキテクチャ、&lt;code&gt;31B&lt;/code&gt; はより大きな dense モデルです。&lt;/p&gt;
&lt;p&gt;ローカル実行で混同しやすい数字は次の2つです。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;GGUF ファイルサイズ&lt;/strong&gt;：モデル重みファイルそのものの大きさ。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;実際のVRAM使用量&lt;/strong&gt;：モデル重み、KV cache、ランタイムのオーバーヘッド、コンテキスト長、マルチモーダル投影ファイルの有無で決まる。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;以下の表は、GGUF ファイルサイズをもとにVRAM要件を見積もったものです。
前提は &lt;code&gt;llama.cpp&lt;/code&gt;、LM Studio、Ollama などで、主にテキスト推論を行い、短〜中程度のコンテキストを使うローカル環境です。
長いコンテキスト、画像/音声入力、並列リクエストを使う場合は、さらにVRAMの余裕が必要です。&lt;/p&gt;
&lt;h2 id=&#34;まず結論&#34;&gt;まず結論
&lt;/h2&gt;&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;VRAM&lt;/th&gt;
          &lt;th&gt;比較的向く選択&lt;/th&gt;
          &lt;th&gt;避けたい選択&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;4GB&lt;/td&gt;
          &lt;td&gt;E2B の低ビット量子化&lt;/td&gt;
          &lt;td&gt;E4B 以上&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;6GB&lt;/td&gt;
          &lt;td&gt;E2B Q4/Q5、E4B の低ビット量子化&lt;/td&gt;
          &lt;td&gt;26B、31B&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;8GB&lt;/td&gt;
          &lt;td&gt;E2B Q8、E4B Q4/Q5&lt;/td&gt;
          &lt;td&gt;26B Q4、31B Q4&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;12GB&lt;/td&gt;
          &lt;td&gt;E4B Q8、26B/31B の 2-bit/3-bit 実験&lt;/td&gt;
          &lt;td&gt;26B Q4 の長コンテキスト、31B Q4&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;16GB&lt;/td&gt;
          &lt;td&gt;26B 低ビット量子化、31B 低ビット量子化&lt;/td&gt;
          &lt;td&gt;31B Q4 の長コンテキスト、26B Q5 以上&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;24GB&lt;/td&gt;
          &lt;td&gt;26B Q4/Q5、31B Q4&lt;/td&gt;
          &lt;td&gt;31B Q8、BF16&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;32GB&lt;/td&gt;
          &lt;td&gt;26B Q6/Q8、31B Q5/Q6&lt;/td&gt;
          &lt;td&gt;BF16&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;48GB&lt;/td&gt;
          &lt;td&gt;31B Q8 をより余裕を持って実行、26B Q8 の長めのコンテキスト&lt;/td&gt;
          &lt;td&gt;31B BF16&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;80GB+&lt;/td&gt;
          &lt;td&gt;26B/31B BF16&lt;/td&gt;
          &lt;td&gt;一般的なコンシューマーGPU単体での運用&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;まずローカルで使えるものを動かしたいなら、&lt;code&gt;E4B Q4_K_M&lt;/code&gt; または &lt;code&gt;E2B Q4_K_M&lt;/code&gt; から始めるのが現実的です。
24GB VRAM があれば、&lt;code&gt;26B A4B Q4_K_M&lt;/code&gt; と &lt;code&gt;31B Q4_K_M&lt;/code&gt; がようやく使いやすい範囲に入ります。&lt;/p&gt;
&lt;h2 id=&#34;gemma-4-e2b-vram表&#34;&gt;Gemma 4 E2B VRAM表
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;E2B&lt;/code&gt; は最も軽量なバージョンで、ノートPC、ミニPC、モバイル端末、低VRAM環境でのテストに向いています。
動かしやすい一方で、複雑な推論、コード生成、長いタスクの安定性には限界があります。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;量子化版&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;GGUF ファイルサイズ&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;最低VRAM&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;安全なVRAM目安&lt;/th&gt;
          &lt;th&gt;向く用途&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-IQ2_M&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;2.29GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;4GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;6GB&lt;/td&gt;
          &lt;td&gt;極限の低VRAMテスト&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-Q2_K_XL&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;2.40GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;4GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;6GB&lt;/td&gt;
          &lt;td&gt;低VRAMでの可用性優先&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q3_K_M&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;2.54GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;4GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;6GB&lt;/td&gt;
          &lt;td&gt;軽いチャット、要約&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;IQ4_XS&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;2.98GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;6GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;8GB&lt;/td&gt;
          &lt;td&gt;品質とサイズのバランス&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q4_K_M&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;3.11GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;6GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;8GB&lt;/td&gt;
          &lt;td&gt;E2B の標準的なおすすめ&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q5_K_M&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;3.36GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;6GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;8GB&lt;/td&gt;
          &lt;td&gt;Q4 より少し安定&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q6_K&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;4.50GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;8GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;10GB&lt;/td&gt;
          &lt;td&gt;小型モデルで品質優先&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q8_0&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;5.05GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;8GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;10GB&lt;/td&gt;
          &lt;td&gt;軽量運用で原精度に近づけたい場合&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;BF16&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;9.31GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;12GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;16GB&lt;/td&gt;
          &lt;td&gt;デバッグ、比較、研究&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;日常的な体験なら &lt;code&gt;E2B Q4_K_M&lt;/code&gt; で十分です。
4GB VRAM しかない場合は 2-bit や 3-bit も試せますが、出力品質は不安定になりやすくなります。&lt;/p&gt;
&lt;h2 id=&#34;gemma-4-e4b-vram表&#34;&gt;Gemma 4 E4B VRAM表
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;E4B&lt;/code&gt; は、より実用的な軽量版です。
E2B よりも日常的な文章作成、資料要約、軽いコード補助、ローカルアシスタント用途に向いています。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;量子化版&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;GGUF ファイルサイズ&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;最低VRAM&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;安全なVRAM目安&lt;/th&gt;
          &lt;th&gt;向く用途&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-IQ2_M&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;3.53GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;6GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;8GB&lt;/td&gt;
          &lt;td&gt;低VRAMテスト&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-Q2_K_XL&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;3.74GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;6GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;8GB&lt;/td&gt;
          &lt;td&gt;低VRAMでの可用性優先&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q3_K_M&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;4.06GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;6GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;10GB&lt;/td&gt;
          &lt;td&gt;軽量ローカルアシスタント&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;IQ4_XS&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;4.72GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;8GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;12GB&lt;/td&gt;
          &lt;td&gt;品質と速度のバランス&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q4_K_M&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;4.98GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;8GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;12GB&lt;/td&gt;
          &lt;td&gt;E4B の標準的なおすすめ&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q5_K_M&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;5.48GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;8GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;12GB&lt;/td&gt;
          &lt;td&gt;より安定した日常利用&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q6_K&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;7.07GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;10GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;16GB&lt;/td&gt;
          &lt;td&gt;品質優先&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q8_0&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;8.19GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;12GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;16GB&lt;/td&gt;
          &lt;td&gt;原精度に近い実行&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;BF16&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;15.05GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;20GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;24GB&lt;/td&gt;
          &lt;td&gt;研究、評価、精度比較&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;8GB VRAM のGPUなら、&lt;code&gt;E4B Q4_K_M&lt;/code&gt; が現実的な出発点です。
12GB または 16GB VRAM があるなら、&lt;code&gt;E4B Q8_0&lt;/code&gt; も候補になります。&lt;/p&gt;
&lt;h2 id=&#34;gemma-4-26b-a4b-vram表&#34;&gt;Gemma 4 26B A4B VRAM表
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;26B A4B&lt;/code&gt; は MoE 版で、総パラメータ数は大きいものの、推論時には一部の専門家だけを有効化します。
より複雑なQ&amp;amp;A、コード、ツール呼び出し、Agent ワークフローに向いています。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;量子化版&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;GGUF ファイルサイズ&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;最低VRAM&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;安全なVRAM目安&lt;/th&gt;
          &lt;th&gt;向く用途&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-IQ2_M&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;9.97GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;14GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;16GB&lt;/td&gt;
          &lt;td&gt;16GB GPUでの限界テスト&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-Q2_K_XL&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;10.55GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;14GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;16GB&lt;/td&gt;
          &lt;td&gt;低VRAMで 26B を動かす&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-Q3_K_M&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;12.53GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;16GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;20GB&lt;/td&gt;
          &lt;td&gt;品質を少し上げつつVRAM節約&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-IQ4_XS&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;13.42GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;16GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;24GB&lt;/td&gt;
          &lt;td&gt;品質とサイズのバランス&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-Q4_K_M&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;16.87GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;20GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;24GB&lt;/td&gt;
          &lt;td&gt;26B の標準的なおすすめ&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-Q5_K_M&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;21.15GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;24GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;32GB&lt;/td&gt;
          &lt;td&gt;より高品質な量子化&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-Q6_K&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;23.17GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;28GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;32GB&lt;/td&gt;
          &lt;td&gt;品質優先&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q8_0&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;26.86GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;32GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;40GB&lt;/td&gt;
          &lt;td&gt;原精度に近い実行&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;BF16&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;50.51GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;64GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;80GB&lt;/td&gt;
          &lt;td&gt;一般的な単体コンシューマーGPUでは非現実的&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;26B A4B を快適に使う分岐点は 24GB VRAM です。
16GB GPU でも低ビット版は試せますが、コンテキスト長、並列性、マルチモーダル入力は控えめにする必要があります。&lt;/p&gt;
&lt;h2 id=&#34;gemma-4-31b-vram表&#34;&gt;Gemma 4 31B VRAM表
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;31B&lt;/code&gt; はより大きな dense モデルです。
総合能力が高い一方で、VRAM負荷は 26B A4B より直接的に効いてきます。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;量子化版&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;GGUF ファイルサイズ&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;最低VRAM&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;安全なVRAM目安&lt;/th&gt;
          &lt;th&gt;向く用途&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-IQ2_XXS&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;8.53GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;12GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;16GB&lt;/td&gt;
          &lt;td&gt;極限低VRAMテスト、品質低下は大きい&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-IQ2_M&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;10.75GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;14GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;18GB&lt;/td&gt;
          &lt;td&gt;低VRAMテスト&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;UD-Q2_K_XL&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;11.77GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;16GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;20GB&lt;/td&gt;
          &lt;td&gt;16GB GPUでの実験&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q3_K_S&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;13.21GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;16GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;24GB&lt;/td&gt;
          &lt;td&gt;VRAMを抑えた 3-bit&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q3_K_M&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;14.74GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;20GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;24GB&lt;/td&gt;
          &lt;td&gt;3-bit の一般的な折衷案&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;IQ4_XS&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;16.37GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;20GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;24GB&lt;/td&gt;
          &lt;td&gt;Q4 に近い折衷案&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q4_K_M&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;18.32GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;24GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;32GB&lt;/td&gt;
          &lt;td&gt;31B の標準的なおすすめ&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q5_K_M&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;21.66GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;28GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;32GB&lt;/td&gt;
          &lt;td&gt;より高品質な量子化&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q6_K&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;25.20GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;32GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;40GB&lt;/td&gt;
          &lt;td&gt;品質優先&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q8_0&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;32.64GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;40GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;48GB&lt;/td&gt;
          &lt;td&gt;原精度に近い実行&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;BF16&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;61.41GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;80GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;96GB&lt;/td&gt;
          &lt;td&gt;サーバーまたは大容量VRAMワークステーション&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;31B の低ビット版は 16GB GPU でも実験できますが、日常利用には 24GB VRAM から始めるのが無難です。
&lt;code&gt;Q4_K_M&lt;/code&gt; はバランスのよい選択で、&lt;code&gt;Q5_K_M&lt;/code&gt; 以上は 32GB 以上のVRAMでより現実的です。&lt;/p&gt;
&lt;h2 id=&#34;実際の使用量がファイルサイズより増える理由&#34;&gt;実際の使用量がファイルサイズより増える理由
&lt;/h2&gt;&lt;p&gt;GGUF ファイルサイズは重みの大きさにすぎません。
実行時には次のような追加コストがあります。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;KV cache&lt;/code&gt;：コンテキストが長いほど使用量が増える。&lt;/li&gt;
&lt;li&gt;バッチサイズと並列性：一度に処理する token やユーザー数が増えるとVRAMも増える。&lt;/li&gt;
&lt;li&gt;マルチモーダル部品：画像、音声、動画入力では通常 &lt;code&gt;mmproj&lt;/code&gt; や追加モジュールが必要。&lt;/li&gt;
&lt;li&gt;ランタイムバックエンド：CUDA、Metal、ROCm、CPU/GPU 分割ロードで占用が変わる。&lt;/li&gt;
&lt;li&gt;KV cache 量子化：&lt;code&gt;q8_0&lt;/code&gt;、&lt;code&gt;q4_0&lt;/code&gt; などでVRAMを節約できるが、細部に影響する場合がある。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;そのため、表の「最低VRAM」は「起動して短いコンテキストで動く」目安として見るべきです。
32K、64K、128K、さらに 256K コンテキストを使う場合、必要VRAMは大きく増えます。&lt;/p&gt;
&lt;h2 id=&#34;どう選ぶか&#34;&gt;どう選ぶか
&lt;/h2&gt;&lt;p&gt;ローカルで Gemma 4 を試したいだけなら：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;4GB〜6GB VRAM：&lt;code&gt;E2B Q3_K_M&lt;/code&gt; または &lt;code&gt;E2B Q4_K_M&lt;/code&gt;。&lt;/li&gt;
&lt;li&gt;8GB VRAM：まず &lt;code&gt;E4B Q4_K_M&lt;/code&gt;。&lt;code&gt;E2B Q8_0&lt;/code&gt; も選択肢。&lt;/li&gt;
&lt;li&gt;12GB VRAM：&lt;code&gt;E4B Q8_0&lt;/code&gt;、または 26B/31B の低ビット版を試す。&lt;/li&gt;
&lt;li&gt;16GB VRAM：&lt;code&gt;26B A4B UD-Q3_K_M&lt;/code&gt; または &lt;code&gt;31B Q3_K_S&lt;/code&gt; を試せるが、長いコンテキストは期待しすぎない。&lt;/li&gt;
&lt;li&gt;24GB VRAM：&lt;code&gt;26B A4B UD-Q4_K_M&lt;/code&gt; と &lt;code&gt;31B Q4_K_M&lt;/code&gt; が本命。&lt;/li&gt;
&lt;li&gt;32GB 以上：&lt;code&gt;Q5_K_M&lt;/code&gt;、&lt;code&gt;Q6_K&lt;/code&gt;、またはより長いコンテキストを検討。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;多くのユーザーに BF16 は不要です。
ローカル部署で重要なのは、ファイルサイズの大きさではなく、VRAM、速度、コンテキスト長、出力品質のバランスです。&lt;/p&gt;
&lt;h2 id=&#34;参考元&#34;&gt;参考元
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/google/gemma-4-E2B-it&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;google/gemma-4-E2B-it - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/google/gemma-4-E4B-it&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;google/gemma-4-E4B-it - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/ggml-org/gemma-4-26B-A4B-it-GGUF&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;ggml-org/gemma-4-26B-A4B-it-GGUF - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/unsloth/gemma-4-E2B-it-GGUF&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;unsloth/gemma-4-E2B-it-GGUF - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/unsloth/gemma-4-E4B-it-GGUF&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;unsloth/gemma-4-E4B-it-GGUF - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;unsloth/gemma-4-26B-A4B-it-GGUF - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/unsloth/gemma-4-31B-it-GGUF&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;unsloth/gemma-4-31B-it-GGUF - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        
    </channel>
</rss>
