Gemma 4 をローカルで動かす：E2B、E4B、26B、31B の量子化版に必要なVRAM

Gemma 4 には、ローカル実行向けに主に E2B、E4B、26B A4B、31B の4サイズがあります。 E2B と E4B は軽量・エッジデバイス向け、26B A4B は MoE アーキテクチャ、31B はより大きな dense モデルです。

ローカル実行で混同しやすい数字は次の2つです。

GGUF ファイルサイズ：モデル重みファイルそのものの大きさ。
実際のVRAM使用量：モデル重み、KV cache、ランタイムのオーバーヘッド、コンテキスト長、マルチモーダル投影ファイルの有無で決まる。

以下の表は、GGUF ファイルサイズをもとにVRAM要件を見積もったものです。前提は llama.cpp、LM Studio、Ollama などで、主にテキスト推論を行い、短〜中程度のコンテキストを使うローカル環境です。長いコンテキスト、画像/音声入力、並列リクエストを使う場合は、さらにVRAMの余裕が必要です。

まず結論

VRAM	比較的向く選択	避けたい選択
4GB	E2B の低ビット量子化	E4B 以上
6GB	E2B Q4/Q5、E4B の低ビット量子化	26B、31B
8GB	E2B Q8、E4B Q4/Q5	26B Q4、31B Q4
12GB	E4B Q8、26B/31B の 2-bit/3-bit 実験	26B Q4 の長コンテキスト、31B Q4
16GB	26B 低ビット量子化、31B 低ビット量子化	31B Q4 の長コンテキスト、26B Q5 以上
24GB	26B Q4/Q5、31B Q4	31B Q8、BF16
32GB	26B Q6/Q8、31B Q5/Q6	BF16
48GB	31B Q8 をより余裕を持って実行、26B Q8 の長めのコンテキスト	31B BF16
80GB+	26B/31B BF16	一般的なコンシューマーGPU単体での運用

まずローカルで使えるものを動かしたいなら、E4B Q4_K_M または E2B Q4_K_M から始めるのが現実的です。 24GB VRAM があれば、26B A4B Q4_K_M と 31B Q4_K_M がようやく使いやすい範囲に入ります。

Gemma 4 E2B VRAM表

E2B は最も軽量なバージョンで、ノートPC、ミニPC、モバイル端末、低VRAM環境でのテストに向いています。動かしやすい一方で、複雑な推論、コード生成、長いタスクの安定性には限界があります。

量子化版	GGUF ファイルサイズ	最低VRAM	安全なVRAM目安	向く用途
`UD-IQ2_M`	2.29GB	4GB	6GB	極限の低VRAMテスト
`UD-Q2_K_XL`	2.40GB	4GB	6GB	低VRAMでの可用性優先
`Q3_K_M`	2.54GB	4GB	6GB	軽いチャット、要約
`IQ4_XS`	2.98GB	6GB	8GB	品質とサイズのバランス
`Q4_K_M`	3.11GB	6GB	8GB	E2B の標準的なおすすめ
`Q5_K_M`	3.36GB	6GB	8GB	Q4 より少し安定
`Q6_K`	4.50GB	8GB	10GB	小型モデルで品質優先
`Q8_0`	5.05GB	8GB	10GB	軽量運用で原精度に近づけたい場合
`BF16`	9.31GB	12GB	16GB	デバッグ、比較、研究

日常的な体験なら E2B Q4_K_M で十分です。 4GB VRAM しかない場合は 2-bit や 3-bit も試せますが、出力品質は不安定になりやすくなります。

Gemma 4 E4B VRAM表

E4B は、より実用的な軽量版です。 E2B よりも日常的な文章作成、資料要約、軽いコード補助、ローカルアシスタント用途に向いています。

量子化版	GGUF ファイルサイズ	最低VRAM	安全なVRAM目安	向く用途
`UD-IQ2_M`	3.53GB	6GB	8GB	低VRAMテスト
`UD-Q2_K_XL`	3.74GB	6GB	8GB	低VRAMでの可用性優先
`Q3_K_M`	4.06GB	6GB	10GB	軽量ローカルアシスタント
`IQ4_XS`	4.72GB	8GB	12GB	品質と速度のバランス
`Q4_K_M`	4.98GB	8GB	12GB	E4B の標準的なおすすめ
`Q5_K_M`	5.48GB	8GB	12GB	より安定した日常利用
`Q6_K`	7.07GB	10GB	16GB	品質優先
`Q8_0`	8.19GB	12GB	16GB	原精度に近い実行
`BF16`	15.05GB	20GB	24GB	研究、評価、精度比較

8GB VRAM のGPUなら、E4B Q4_K_M が現実的な出発点です。 12GB または 16GB VRAM があるなら、E4B Q8_0 も候補になります。

Gemma 4 26B A4B VRAM表

26B A4B は MoE 版で、総パラメータ数は大きいものの、推論時には一部の専門家だけを有効化します。より複雑なQ&A、コード、ツール呼び出し、Agent ワークフローに向いています。

量子化版	GGUF ファイルサイズ	最低VRAM	安全なVRAM目安	向く用途
`UD-IQ2_M`	9.97GB	14GB	16GB	16GB GPUでの限界テスト
`UD-Q2_K_XL`	10.55GB	14GB	16GB	低VRAMで 26B を動かす
`UD-Q3_K_M`	12.53GB	16GB	20GB	品質を少し上げつつVRAM節約
`UD-IQ4_XS`	13.42GB	16GB	24GB	品質とサイズのバランス
`UD-Q4_K_M`	16.87GB	20GB	24GB	26B の標準的なおすすめ
`UD-Q5_K_M`	21.15GB	24GB	32GB	より高品質な量子化
`UD-Q6_K`	23.17GB	28GB	32GB	品質優先
`Q8_0`	26.86GB	32GB	40GB	原精度に近い実行
`BF16`	50.51GB	64GB	80GB	一般的な単体コンシューマーGPUでは非現実的

26B A4B を快適に使う分岐点は 24GB VRAM です。 16GB GPU でも低ビット版は試せますが、コンテキスト長、並列性、マルチモーダル入力は控えめにする必要があります。

Gemma 4 31B VRAM表

31B はより大きな dense モデルです。総合能力が高い一方で、VRAM負荷は 26B A4B より直接的に効いてきます。

量子化版	GGUF ファイルサイズ	最低VRAM	安全なVRAM目安	向く用途
`UD-IQ2_XXS`	8.53GB	12GB	16GB	極限低VRAMテスト、品質低下は大きい
`UD-IQ2_M`	10.75GB	14GB	18GB	低VRAMテスト
`UD-Q2_K_XL`	11.77GB	16GB	20GB	16GB GPUでの実験
`Q3_K_S`	13.21GB	16GB	24GB	VRAMを抑えた 3-bit
`Q3_K_M`	14.74GB	20GB	24GB	3-bit の一般的な折衷案
`IQ4_XS`	16.37GB	20GB	24GB	Q4 に近い折衷案
`Q4_K_M`	18.32GB	24GB	32GB	31B の標準的なおすすめ
`Q5_K_M`	21.66GB	28GB	32GB	より高品質な量子化
`Q6_K`	25.20GB	32GB	40GB	品質優先
`Q8_0`	32.64GB	40GB	48GB	原精度に近い実行
`BF16`	61.41GB	80GB	96GB	サーバーまたは大容量VRAMワークステーション

31B の低ビット版は 16GB GPU でも実験できますが、日常利用には 24GB VRAM から始めるのが無難です。 Q4_K_M はバランスのよい選択で、Q5_K_M 以上は 32GB 以上のVRAMでより現実的です。

実際の使用量がファイルサイズより増える理由

GGUF ファイルサイズは重みの大きさにすぎません。実行時には次のような追加コストがあります。

KV cache：コンテキストが長いほど使用量が増える。
バッチサイズと並列性：一度に処理する token やユーザー数が増えるとVRAMも増える。
マルチモーダル部品：画像、音声、動画入力では通常 mmproj や追加モジュールが必要。
ランタイムバックエンド：CUDA、Metal、ROCm、CPU/GPU 分割ロードで占用が変わる。
KV cache 量子化：q8_0、q4_0 などでVRAMを節約できるが、細部に影響する場合がある。

そのため、表の「最低VRAM」は「起動して短いコンテキストで動く」目安として見るべきです。 32K、64K、128K、さらに 256K コンテキストを使う場合、必要VRAMは大きく増えます。

どう選ぶか

ローカルで Gemma 4 を試したいだけなら：

4GB〜6GB VRAM：E2B Q3_K_M または E2B Q4_K_M。
8GB VRAM：まず E4B Q4_K_M。E2B Q8_0 も選択肢。
12GB VRAM：E4B Q8_0、または 26B/31B の低ビット版を試す。
16GB VRAM：26B A4B UD-Q3_K_M または 31B Q3_K_S を試せるが、長いコンテキストは期待しすぎない。
24GB VRAM：26B A4B UD-Q4_K_M と 31B Q4_K_M が本命。
32GB 以上：Q5_K_M、Q6_K、またはより長いコンテキストを検討。

多くのユーザーに BF16 は不要です。ローカル部署で重要なのは、ファイルサイズの大きさではなく、VRAM、速度、コンテキスト長、出力品質のバランスです。