Gemma 4 には、ローカル実行向けに主に E2B、E4B、26B A4B、31B の4サイズがあります。
E2B と E4B は軽量・エッジデバイス向け、26B A4B は MoE アーキテクチャ、31B はより大きな dense モデルです。
ローカル実行で混同しやすい数字は次の2つです。
- GGUF ファイルサイズ:モデル重みファイルそのものの大きさ。
- 実際のVRAM使用量:モデル重み、KV cache、ランタイムのオーバーヘッド、コンテキスト長、マルチモーダル投影ファイルの有無で決まる。
以下の表は、GGUF ファイルサイズをもとにVRAM要件を見積もったものです。
前提は llama.cpp、LM Studio、Ollama などで、主にテキスト推論を行い、短〜中程度のコンテキストを使うローカル環境です。
長いコンテキスト、画像/音声入力、並列リクエストを使う場合は、さらにVRAMの余裕が必要です。
まず結論
| VRAM | 比較的向く選択 | 避けたい選択 |
|---|---|---|
| 4GB | E2B の低ビット量子化 | E4B 以上 |
| 6GB | E2B Q4/Q5、E4B の低ビット量子化 | 26B、31B |
| 8GB | E2B Q8、E4B Q4/Q5 | 26B Q4、31B Q4 |
| 12GB | E4B Q8、26B/31B の 2-bit/3-bit 実験 | 26B Q4 の長コンテキスト、31B Q4 |
| 16GB | 26B 低ビット量子化、31B 低ビット量子化 | 31B Q4 の長コンテキスト、26B Q5 以上 |
| 24GB | 26B Q4/Q5、31B Q4 | 31B Q8、BF16 |
| 32GB | 26B Q6/Q8、31B Q5/Q6 | BF16 |
| 48GB | 31B Q8 をより余裕を持って実行、26B Q8 の長めのコンテキスト | 31B BF16 |
| 80GB+ | 26B/31B BF16 | 一般的なコンシューマーGPU単体での運用 |
まずローカルで使えるものを動かしたいなら、E4B Q4_K_M または E2B Q4_K_M から始めるのが現実的です。
24GB VRAM があれば、26B A4B Q4_K_M と 31B Q4_K_M がようやく使いやすい範囲に入ります。
Gemma 4 E2B VRAM表
E2B は最も軽量なバージョンで、ノートPC、ミニPC、モバイル端末、低VRAM環境でのテストに向いています。
動かしやすい一方で、複雑な推論、コード生成、長いタスクの安定性には限界があります。
| 量子化版 | GGUF ファイルサイズ | 最低VRAM | 安全なVRAM目安 | 向く用途 |
|---|---|---|---|---|
UD-IQ2_M |
2.29GB | 4GB | 6GB | 極限の低VRAMテスト |
UD-Q2_K_XL |
2.40GB | 4GB | 6GB | 低VRAMでの可用性優先 |
Q3_K_M |
2.54GB | 4GB | 6GB | 軽いチャット、要約 |
IQ4_XS |
2.98GB | 6GB | 8GB | 品質とサイズのバランス |
Q4_K_M |
3.11GB | 6GB | 8GB | E2B の標準的なおすすめ |
Q5_K_M |
3.36GB | 6GB | 8GB | Q4 より少し安定 |
Q6_K |
4.50GB | 8GB | 10GB | 小型モデルで品質優先 |
Q8_0 |
5.05GB | 8GB | 10GB | 軽量運用で原精度に近づけたい場合 |
BF16 |
9.31GB | 12GB | 16GB | デバッグ、比較、研究 |
日常的な体験なら E2B Q4_K_M で十分です。
4GB VRAM しかない場合は 2-bit や 3-bit も試せますが、出力品質は不安定になりやすくなります。
Gemma 4 E4B VRAM表
E4B は、より実用的な軽量版です。
E2B よりも日常的な文章作成、資料要約、軽いコード補助、ローカルアシスタント用途に向いています。
| 量子化版 | GGUF ファイルサイズ | 最低VRAM | 安全なVRAM目安 | 向く用途 |
|---|---|---|---|---|
UD-IQ2_M |
3.53GB | 6GB | 8GB | 低VRAMテスト |
UD-Q2_K_XL |
3.74GB | 6GB | 8GB | 低VRAMでの可用性優先 |
Q3_K_M |
4.06GB | 6GB | 10GB | 軽量ローカルアシスタント |
IQ4_XS |
4.72GB | 8GB | 12GB | 品質と速度のバランス |
Q4_K_M |
4.98GB | 8GB | 12GB | E4B の標準的なおすすめ |
Q5_K_M |
5.48GB | 8GB | 12GB | より安定した日常利用 |
Q6_K |
7.07GB | 10GB | 16GB | 品質優先 |
Q8_0 |
8.19GB | 12GB | 16GB | 原精度に近い実行 |
BF16 |
15.05GB | 20GB | 24GB | 研究、評価、精度比較 |
8GB VRAM のGPUなら、E4B Q4_K_M が現実的な出発点です。
12GB または 16GB VRAM があるなら、E4B Q8_0 も候補になります。
Gemma 4 26B A4B VRAM表
26B A4B は MoE 版で、総パラメータ数は大きいものの、推論時には一部の専門家だけを有効化します。
より複雑なQ&A、コード、ツール呼び出し、Agent ワークフローに向いています。
| 量子化版 | GGUF ファイルサイズ | 最低VRAM | 安全なVRAM目安 | 向く用途 |
|---|---|---|---|---|
UD-IQ2_M |
9.97GB | 14GB | 16GB | 16GB GPUでの限界テスト |
UD-Q2_K_XL |
10.55GB | 14GB | 16GB | 低VRAMで 26B を動かす |
UD-Q3_K_M |
12.53GB | 16GB | 20GB | 品質を少し上げつつVRAM節約 |
UD-IQ4_XS |
13.42GB | 16GB | 24GB | 品質とサイズのバランス |
UD-Q4_K_M |
16.87GB | 20GB | 24GB | 26B の標準的なおすすめ |
UD-Q5_K_M |
21.15GB | 24GB | 32GB | より高品質な量子化 |
UD-Q6_K |
23.17GB | 28GB | 32GB | 品質優先 |
Q8_0 |
26.86GB | 32GB | 40GB | 原精度に近い実行 |
BF16 |
50.51GB | 64GB | 80GB | 一般的な単体コンシューマーGPUでは非現実的 |
26B A4B を快適に使う分岐点は 24GB VRAM です。 16GB GPU でも低ビット版は試せますが、コンテキスト長、並列性、マルチモーダル入力は控えめにする必要があります。
Gemma 4 31B VRAM表
31B はより大きな dense モデルです。
総合能力が高い一方で、VRAM負荷は 26B A4B より直接的に効いてきます。
| 量子化版 | GGUF ファイルサイズ | 最低VRAM | 安全なVRAM目安 | 向く用途 |
|---|---|---|---|---|
UD-IQ2_XXS |
8.53GB | 12GB | 16GB | 極限低VRAMテスト、品質低下は大きい |
UD-IQ2_M |
10.75GB | 14GB | 18GB | 低VRAMテスト |
UD-Q2_K_XL |
11.77GB | 16GB | 20GB | 16GB GPUでの実験 |
Q3_K_S |
13.21GB | 16GB | 24GB | VRAMを抑えた 3-bit |
Q3_K_M |
14.74GB | 20GB | 24GB | 3-bit の一般的な折衷案 |
IQ4_XS |
16.37GB | 20GB | 24GB | Q4 に近い折衷案 |
Q4_K_M |
18.32GB | 24GB | 32GB | 31B の標準的なおすすめ |
Q5_K_M |
21.66GB | 28GB | 32GB | より高品質な量子化 |
Q6_K |
25.20GB | 32GB | 40GB | 品質優先 |
Q8_0 |
32.64GB | 40GB | 48GB | 原精度に近い実行 |
BF16 |
61.41GB | 80GB | 96GB | サーバーまたは大容量VRAMワークステーション |
31B の低ビット版は 16GB GPU でも実験できますが、日常利用には 24GB VRAM から始めるのが無難です。
Q4_K_M はバランスのよい選択で、Q5_K_M 以上は 32GB 以上のVRAMでより現実的です。
実際の使用量がファイルサイズより増える理由
GGUF ファイルサイズは重みの大きさにすぎません。 実行時には次のような追加コストがあります。
KV cache:コンテキストが長いほど使用量が増える。- バッチサイズと並列性:一度に処理する token やユーザー数が増えるとVRAMも増える。
- マルチモーダル部品:画像、音声、動画入力では通常
mmprojや追加モジュールが必要。 - ランタイムバックエンド:CUDA、Metal、ROCm、CPU/GPU 分割ロードで占用が変わる。
- KV cache 量子化:
q8_0、q4_0などでVRAMを節約できるが、細部に影響する場合がある。
そのため、表の「最低VRAM」は「起動して短いコンテキストで動く」目安として見るべきです。 32K、64K、128K、さらに 256K コンテキストを使う場合、必要VRAMは大きく増えます。
どう選ぶか
ローカルで Gemma 4 を試したいだけなら:
- 4GB〜6GB VRAM:
E2B Q3_K_MまたはE2B Q4_K_M。 - 8GB VRAM:まず
E4B Q4_K_M。E2B Q8_0も選択肢。 - 12GB VRAM:
E4B Q8_0、または 26B/31B の低ビット版を試す。 - 16GB VRAM:
26B A4B UD-Q3_K_Mまたは31B Q3_K_Sを試せるが、長いコンテキストは期待しすぎない。 - 24GB VRAM:
26B A4B UD-Q4_K_Mと31B Q4_K_Mが本命。 - 32GB 以上:
Q5_K_M、Q6_K、またはより長いコンテキストを検討。
多くのユーザーに BF16 は不要です。 ローカル部署で重要なのは、ファイルサイズの大きさではなく、VRAM、速度、コンテキスト長、出力品質のバランスです。