Gemma 4 をローカルで動かす:E2B、E4B、26B、31B の量子化版に必要なVRAM

Gemma 4 E2B、E4B、26B A4B、31B の主要な GGUF 量子化版について、ファイルサイズ、最低VRAM、より安全なVRAM目安を整理する。

Gemma 4 には、ローカル実行向けに主に E2BE4B26B A4B31B の4サイズがあります。 E2BE4B は軽量・エッジデバイス向け、26B A4B は MoE アーキテクチャ、31B はより大きな dense モデルです。

ローカル実行で混同しやすい数字は次の2つです。

  • GGUF ファイルサイズ:モデル重みファイルそのものの大きさ。
  • 実際のVRAM使用量:モデル重み、KV cache、ランタイムのオーバーヘッド、コンテキスト長、マルチモーダル投影ファイルの有無で決まる。

以下の表は、GGUF ファイルサイズをもとにVRAM要件を見積もったものです。 前提は llama.cpp、LM Studio、Ollama などで、主にテキスト推論を行い、短〜中程度のコンテキストを使うローカル環境です。 長いコンテキスト、画像/音声入力、並列リクエストを使う場合は、さらにVRAMの余裕が必要です。

まず結論

VRAM 比較的向く選択 避けたい選択
4GB E2B の低ビット量子化 E4B 以上
6GB E2B Q4/Q5、E4B の低ビット量子化 26B、31B
8GB E2B Q8、E4B Q4/Q5 26B Q4、31B Q4
12GB E4B Q8、26B/31B の 2-bit/3-bit 実験 26B Q4 の長コンテキスト、31B Q4
16GB 26B 低ビット量子化、31B 低ビット量子化 31B Q4 の長コンテキスト、26B Q5 以上
24GB 26B Q4/Q5、31B Q4 31B Q8、BF16
32GB 26B Q6/Q8、31B Q5/Q6 BF16
48GB 31B Q8 をより余裕を持って実行、26B Q8 の長めのコンテキスト 31B BF16
80GB+ 26B/31B BF16 一般的なコンシューマーGPU単体での運用

まずローカルで使えるものを動かしたいなら、E4B Q4_K_M または E2B Q4_K_M から始めるのが現実的です。 24GB VRAM があれば、26B A4B Q4_K_M31B Q4_K_M がようやく使いやすい範囲に入ります。

Gemma 4 E2B VRAM表

E2B は最も軽量なバージョンで、ノートPC、ミニPC、モバイル端末、低VRAM環境でのテストに向いています。 動かしやすい一方で、複雑な推論、コード生成、長いタスクの安定性には限界があります。

量子化版 GGUF ファイルサイズ 最低VRAM 安全なVRAM目安 向く用途
UD-IQ2_M 2.29GB 4GB 6GB 極限の低VRAMテスト
UD-Q2_K_XL 2.40GB 4GB 6GB 低VRAMでの可用性優先
Q3_K_M 2.54GB 4GB 6GB 軽いチャット、要約
IQ4_XS 2.98GB 6GB 8GB 品質とサイズのバランス
Q4_K_M 3.11GB 6GB 8GB E2B の標準的なおすすめ
Q5_K_M 3.36GB 6GB 8GB Q4 より少し安定
Q6_K 4.50GB 8GB 10GB 小型モデルで品質優先
Q8_0 5.05GB 8GB 10GB 軽量運用で原精度に近づけたい場合
BF16 9.31GB 12GB 16GB デバッグ、比較、研究

日常的な体験なら E2B Q4_K_M で十分です。 4GB VRAM しかない場合は 2-bit や 3-bit も試せますが、出力品質は不安定になりやすくなります。

Gemma 4 E4B VRAM表

E4B は、より実用的な軽量版です。 E2B よりも日常的な文章作成、資料要約、軽いコード補助、ローカルアシスタント用途に向いています。

量子化版 GGUF ファイルサイズ 最低VRAM 安全なVRAM目安 向く用途
UD-IQ2_M 3.53GB 6GB 8GB 低VRAMテスト
UD-Q2_K_XL 3.74GB 6GB 8GB 低VRAMでの可用性優先
Q3_K_M 4.06GB 6GB 10GB 軽量ローカルアシスタント
IQ4_XS 4.72GB 8GB 12GB 品質と速度のバランス
Q4_K_M 4.98GB 8GB 12GB E4B の標準的なおすすめ
Q5_K_M 5.48GB 8GB 12GB より安定した日常利用
Q6_K 7.07GB 10GB 16GB 品質優先
Q8_0 8.19GB 12GB 16GB 原精度に近い実行
BF16 15.05GB 20GB 24GB 研究、評価、精度比較

8GB VRAM のGPUなら、E4B Q4_K_M が現実的な出発点です。 12GB または 16GB VRAM があるなら、E4B Q8_0 も候補になります。

Gemma 4 26B A4B VRAM表

26B A4B は MoE 版で、総パラメータ数は大きいものの、推論時には一部の専門家だけを有効化します。 より複雑なQ&A、コード、ツール呼び出し、Agent ワークフローに向いています。

量子化版 GGUF ファイルサイズ 最低VRAM 安全なVRAM目安 向く用途
UD-IQ2_M 9.97GB 14GB 16GB 16GB GPUでの限界テスト
UD-Q2_K_XL 10.55GB 14GB 16GB 低VRAMで 26B を動かす
UD-Q3_K_M 12.53GB 16GB 20GB 品質を少し上げつつVRAM節約
UD-IQ4_XS 13.42GB 16GB 24GB 品質とサイズのバランス
UD-Q4_K_M 16.87GB 20GB 24GB 26B の標準的なおすすめ
UD-Q5_K_M 21.15GB 24GB 32GB より高品質な量子化
UD-Q6_K 23.17GB 28GB 32GB 品質優先
Q8_0 26.86GB 32GB 40GB 原精度に近い実行
BF16 50.51GB 64GB 80GB 一般的な単体コンシューマーGPUでは非現実的

26B A4B を快適に使う分岐点は 24GB VRAM です。 16GB GPU でも低ビット版は試せますが、コンテキスト長、並列性、マルチモーダル入力は控えめにする必要があります。

Gemma 4 31B VRAM表

31B はより大きな dense モデルです。 総合能力が高い一方で、VRAM負荷は 26B A4B より直接的に効いてきます。

量子化版 GGUF ファイルサイズ 最低VRAM 安全なVRAM目安 向く用途
UD-IQ2_XXS 8.53GB 12GB 16GB 極限低VRAMテスト、品質低下は大きい
UD-IQ2_M 10.75GB 14GB 18GB 低VRAMテスト
UD-Q2_K_XL 11.77GB 16GB 20GB 16GB GPUでの実験
Q3_K_S 13.21GB 16GB 24GB VRAMを抑えた 3-bit
Q3_K_M 14.74GB 20GB 24GB 3-bit の一般的な折衷案
IQ4_XS 16.37GB 20GB 24GB Q4 に近い折衷案
Q4_K_M 18.32GB 24GB 32GB 31B の標準的なおすすめ
Q5_K_M 21.66GB 28GB 32GB より高品質な量子化
Q6_K 25.20GB 32GB 40GB 品質優先
Q8_0 32.64GB 40GB 48GB 原精度に近い実行
BF16 61.41GB 80GB 96GB サーバーまたは大容量VRAMワークステーション

31B の低ビット版は 16GB GPU でも実験できますが、日常利用には 24GB VRAM から始めるのが無難です。 Q4_K_M はバランスのよい選択で、Q5_K_M 以上は 32GB 以上のVRAMでより現実的です。

実際の使用量がファイルサイズより増える理由

GGUF ファイルサイズは重みの大きさにすぎません。 実行時には次のような追加コストがあります。

  • KV cache:コンテキストが長いほど使用量が増える。
  • バッチサイズと並列性:一度に処理する token やユーザー数が増えるとVRAMも増える。
  • マルチモーダル部品:画像、音声、動画入力では通常 mmproj や追加モジュールが必要。
  • ランタイムバックエンド:CUDA、Metal、ROCm、CPU/GPU 分割ロードで占用が変わる。
  • KV cache 量子化:q8_0q4_0 などでVRAMを節約できるが、細部に影響する場合がある。

そのため、表の「最低VRAM」は「起動して短いコンテキストで動く」目安として見るべきです。 32K、64K、128K、さらに 256K コンテキストを使う場合、必要VRAMは大きく増えます。

どう選ぶか

ローカルで Gemma 4 を試したいだけなら:

  • 4GB〜6GB VRAM:E2B Q3_K_M または E2B Q4_K_M
  • 8GB VRAM:まず E4B Q4_K_ME2B Q8_0 も選択肢。
  • 12GB VRAM:E4B Q8_0、または 26B/31B の低ビット版を試す。
  • 16GB VRAM:26B A4B UD-Q3_K_M または 31B Q3_K_S を試せるが、長いコンテキストは期待しすぎない。
  • 24GB VRAM:26B A4B UD-Q4_K_M31B Q4_K_M が本命。
  • 32GB 以上:Q5_K_MQ6_K、またはより長いコンテキストを検討。

多くのユーザーに BF16 は不要です。 ローカル部署で重要なのは、ファイルサイズの大きさではなく、VRAM、速度、コンテキスト長、出力品質のバランスです。

参考元

记录并分享
Hugo で構築されています。
テーマ StackJimmy によって設計されています。