VRAM on KnightLiブログ

Qwen3.6 をローカルで動かす：27B と 35B-A3B の量子化版に必要なVRAM

Fri, 01 May 2026 12:02:00 +0800

Qwen3.6 でローカル部署の対象として特に重要な公開重み版は、主に次の2つです。

Qwen3.6-27B：27B の dense モデル。
Qwen3.6-35B-A3B：35B total / 3B active の MoE モデル。

Qwen3.6-Plus や Qwen3.6-Max のようなオンライン製品名や API モデル名もあります。ただし、完全な公開重みと安定した量子化ファイルがないモデルは、ローカルVRAM表には向きません。この記事では、Hugging Face の重みと GGUF 量子化ファイルをもとに部署できるバージョンだけを扱います。

/05/10 の Gemma 4 表と同じように、まず次の2つを分けて考える必要があります。

GGUF ファイルサイズ：モデル重みファイルそのものの大きさ。
実際のVRAM使用量：重み、KV cache、コンテキスト長、ランタイムバックエンド、マルチモーダルモジュール、バッチサイズで決まる。

Qwen3.6 は標準のコンテキストが非常に長く、公式モデルカードでは 262,144 tokens をネイティブでサポートし、1,010,000 tokens まで拡張可能とされています。そのため、表の「最低VRAM」は短い、または中程度のコンテキストを前提にした目安です。 128K、256K、またはそれ以上のコンテキストを本当に使う場合は、KV cache 用にかなり多くの余裕が必要です。

まず結論

VRAM	比較的向く選択	避けたい選択
8GB	27B / 35B-A3B の 2-bit 極限テスト。品質リスクは高い	Q4 以上
12GB	27B Q2/Q3、35B-A3B Q2/Q3 の短コンテキスト	27B Q4 の長コンテキスト
16GB	27B Q3/Q4、35B-A3B Q3/IQ4_XS	35B-A3B Q4 の長コンテキスト
24GB	27B Q4/Q5/Q6、35B-A3B Q4	35B-A3B Q8、BF16
32GB	27B Q8、35B-A3B Q5/Q6	BF16
48GB	35B-A3B Q8、27B の長めのコンテキストをより余裕を持って実行	35B-A3B BF16
80GB+	27B / 35B-A3B BF16	通常のローカルチャットで BF16 を追う必要はない

24GB GPU なら、重点的に見るべきなのは次の3つです。

Qwen3.6-27B Q4_K_M
Qwen3.6-27B Q5_K_M
Qwen3.6-35B-A3B UD-Q4_K_M

16GB VRAM しかない場合は、低ビット幅版から始め、いきなり超長コンテキストを使わないほうが安全です。

公式重みサイズ

以下は、公式 Hugging Face リポジトリの model.safetensors.index.json から確認できる BF16 重みサイズです。元のモデル規模を見るための参考になります。

モデル	アーキテクチャ	公式 BF16 重みサイズ	公式コンテキスト
`Qwen3.6-27B`	27B dense	55.56GB	ネイティブ 262K、1,010K まで拡張可能
`Qwen3.6-35B-A3B`	35B total / 3B active MoE	71.90GB	ネイティブ 262K、1,010K まで拡張可能

35B-A3B は各ステップで約 3B パラメータだけを有効化しますが、完全な MoE 重みを読み込む必要があります。そのため、3B 小型モデルのようにVRAMを見積もることはできません。

Qwen3.6-27B VRAM表

Qwen3.6-27B は dense モデルで、安定した挙動が強みです。一方で推論コストは従来の 27B モデルに近くなります。ローカル部署の観点では、35B-A3B より計算量は重いものの、VRAM要件は見積もりやすいです。

量子化版	GGUF ファイルサイズ	最低VRAM	安全なVRAM目安	向く用途
`UD-IQ2_XXS`	9.39GB	12GB	16GB	極限低VRAMテスト
`UD-IQ2_M`	10.85GB	12GB	16GB	低VRAMでの可用性優先
`UD-Q2_K_XL`	11.85GB	14GB	18GB	低ビット幅の折衷案
`UD-IQ3_XXS`	11.99GB	14GB	18GB	VRAMを抑えた 3-bit
`Q3_K_S`	12.36GB	16GB	20GB	3-bit 入門
`Q3_K_M`	13.59GB	16GB	20GB	3-bit の一般的な折衷案
`IQ4_XS`	15.44GB	20GB	24GB	Q4 に近い省VRAM選択
`IQ4_NL`	16.07GB	20GB	24GB	品質とサイズのバランス
`Q4_K_M`	16.82GB	20GB	24GB	27B の標準的なおすすめ
`Q5_K_M`	19.51GB	24GB	32GB	より高品質な量子化
`Q6_K`	22.52GB	28GB	32GB	品質優先
`Q8_0`	28.60GB	32GB	40GB	原精度に近い実行
`BF16`	53.80GB	64GB	80GB	研究、評価、精度比較

普通のローカルコーディングやチャットなら、Q4_K_M が最もおすすめしやすい出発点です。 24GB GPU なら Q4_K_M は比較的快適に動かせますが、長いコンテキストを使う場合は量子化サイズかコンテキスト長を下げるほうが安全です。

Qwen3.6-35B-A3B VRAM表

Qwen3.6-35B-A3B は MoE モデルで、35B total、各ステップで約 3B パラメータを有効化します。速度と能力のバランスがよく、特にローカル Agent、ツール呼び出し、コード作業に向いています。

ただし、MoE の 3B active は主に計算量に効くものであり、VRAMが 3B モデル相当で済むという意味ではありません。完全に動かすには専門家重みを読み込む必要があります。

量子化版	GGUF ファイルサイズ	最低VRAM	安全なVRAM目安	向く用途
`UD-IQ2_XXS`	10.76GB	12GB	16GB	極限低VRAMテスト
`UD-IQ2_M`	11.52GB	14GB	16GB	低VRAMでの可用性優先
`UD-Q2_K_XL`	12.29GB	14GB	18GB	低ビット幅の折衷案
`UD-IQ3_XXS`	13.21GB	16GB	20GB	VRAMを抑えた 3-bit
`UD-Q3_K_S`	15.36GB	18GB	24GB	3-bit 入門
`UD-Q3_K_M`	16.60GB	20GB	24GB	3-bit の一般的な折衷案
`UD-IQ4_XS`	17.73GB	20GB	24GB	品質とサイズのバランス
`UD-IQ4_NL`	18.04GB	20GB	24GB	Q4 に近いおすすめ選択
`UD-Q4_K_M`	22.13GB	24GB	32GB	35B-A3B の標準的なおすすめ
`UD-Q5_K_M`	26.46GB	32GB	40GB	より高品質な量子化
`UD-Q6_K`	29.31GB	32GB	48GB	品質優先
`Q8_0`	36.90GB	48GB	64GB	原精度に近い実行
`BF16`	69.37GB	80GB	96GB	研究、評価、精度比較

24GB VRAM なら UD-Q4_K_M が有力ですが、コンテキストは上げすぎないほうがよいです。 128K 以上のコンテキストに余裕を残したい場合、UD-IQ4_XS、UD-IQ4_NL、または 3-bit 版のほうが現実的です。

27B と 35B-A3B の選び方

目的	よりおすすめ
dense モデルの安定性	`Qwen3.6-27B`
速い応答、Agent、ツール呼び出し	`Qwen3.6-35B-A3B`
24GB VRAM での日常ローカル利用	`35B-A3B UD-Q4_K_M` または `27B Q4_K_M`
16GB VRAM での試用	どちらも 2-bit/3-bit。長コンテキストは避ける
長コンテキスト優先	低ビット量子化にして KV cache の余裕を残す
32GB+ VRAM で品質優先	`27B Q5/Q6` または `35B-A3B Q5/Q6`

コードを書いたり、Agent を動かしたり、ツール呼び出しを使うなら、35B-A3B を先に試す価値があります。 dense モデルの安定性や一貫性を重視するなら、27B のほうがわかりやすい選択です。

長コンテキストが大量のVRAMを使う理由

Qwen3.6 のモデルカードでは、複雑なタスクで長めのコンテキストを保つことが推奨されており、128K 以上のコンテキストが思考能力に役立つとも述べられています。しかしローカル部署では、長コンテキストは大きな KV cache を意味します。

実際のVRAM使用量に影響する要素は次の通りです。

KV cache：コンテキストが長いほど使用量が増える。
視覚入力を有効にするかどうか：Qwen3.6 は視覚エンコーダを持つため、マルチモーダル利用では追加コストがある。
--language-model-only を使うかどうか：vLLM などでは、視覚部分をスキップすると KV cache 用のメモリを一部空けられる。
バッチサイズと並列性：並列性が高いほどVRAM要求も高くなる。
KV cache 量子化：q8_0、q4_0 などはVRAMを節約できるが、細部に影響する場合がある。
ランタイム差：llama.cpp、vLLM、SGLang、KTransformers、LM Studio の使用量は完全には同じではない。

そのため、GGUF ファイルサイズだけを見てはいけません。ファイルがすでにVRAM上限に近い場合、モデルは読み込めても、長い出力や長コンテキスト生成で OOM になる可能性があります。

どう選ぶか

ローカルで Qwen3.6 を試したいだけなら：

12GB VRAM：27B UD-IQ2_M または 35B-A3B UD-IQ2_M。コンテキストは短くする。
16GB VRAM：27B Q3_K_M または 35B-A3B UD-IQ3_XXS。
24GB VRAM：27B Q4_K_M、35B-A3B UD-IQ4_NL、35B-A3B UD-Q4_K_M を優先。
32GB VRAM：27B Q5/Q6 または 35B-A3B Q5/Q6 を検討。
48GB 以上：Q8_0 を試すか、長コンテキスト用に余裕を残す。

多くのユーザーに BF16 は不要です。 Qwen3.6 のローカル部署で重要なのは、ファイルサイズの大きさではなく、VRAM、コンテキスト長、速度、出力品質のバランスです。

参考元

DeepSeek V4 をローカルで動かす：Pro、Flash、Base 版のVRAM使用量見積もり

Fri, 01 May 2026 11:55:25 +0800

DeepSeek V4 と Gemma 4 は、ローカル実行の難度がまったく違います。 Gemma 4 の 26B や 31B なら、24GB や 32GB のGPUでどの量子化版を選ぶかをまだ議論できます。DeepSeek V4 は巨大な MoE モデルであり、完全なローカル実行では多GPUワークステーションやサーバー級のVRAMが必要になります。

公式の DeepSeek V4 Preview には、主に2つの推論モデルがあります。

DeepSeek-V4-Pro：1.6T total / 49B active params
DeepSeek-V4-Flash：284B total / 13B active params

Hugging Face の公式 collection には、さらに2つの Base モデルも含まれています。

DeepSeek-V4-Pro-Base
DeepSeek-V4-Flash-Base

この記事では、モデル重みを完全に読み込む場合のおおまかなVRAM要件だけを扱います。 MoE の active params は主に各 token の計算量に効くものであり、その分のパラメータだけを読み込めばよいという意味ではありません。専門家のオンデマンド読み込み、CPU/NVMe offload、分散推論、専用ランタイム最適化がない場合、VRAMは基本的に完全な重みサイズを基準に見積もる必要があります。

まず結論

VRAM規模	比較的現実的に試せるもの	期待しないほうがよいもの
24GB	DeepSeek V4 の完全実行は不可。小型蒸留モデルまたはAPI向け	V4-Flash / V4-Pro の完全ローカル読み込み
48GB	まだ完全読み込みには不向き。小型モデルやリモートAPIクライアント向け	V4-Flash Q4 の安定実行
80GB	理論上 V4-Flash Q2/Q3 や強い offload を試せる	V4-Pro
128GB	V4-Flash Q4 が比較的現実的。Q5/Q6 はまだ厳しい	V4-Pro Q4
192GB	V4-Flash FP8/Q6 は余裕が出る。Pro Q2 は実験範囲	V4-Pro Q4
256GB	V4-Flash FP8 はかなり安定。Pro Q2/Q3 は実験可能	V4-Pro Q5 以上
512GB	V4-Pro Q4 が議論できる範囲に入る	V4-Pro FP8
1TB+	V4-Pro FP8、Pro-Base の低ビット幅がより現実的	低コスト単体マシン運用
2TB+	Pro-Base FP8 クラス	普通のワークステーション運用

個人PCでローカル実行することが目的なら、DeepSeek V4 は適切な対象ではありません。より現実的な選択肢は次の通りです。

DeepSeek 公式 API または互換サービスを使う。
安定したコミュニティ製 GGUF/EXL2/MLX 量子化と推論サポートを待つ。
より小さな DeepSeek 蒸留モデルを使う。
Qwen、Gemma、Llama などの 7B〜70B 級ローカルモデルを使う。

公式重みサイズ

以下は Hugging Face 公式リポジトリの model.safetensors.index.json から確認できる重み総量です。これは現在公開されている重みファイルのサイズであり、長いコンテキスト実行時の完全なVRAM使用量ではありません。

モデル	パラメータ規模	公式重みサイズ	説明
`DeepSeek-V4-Flash`	284B total / 13B active	159.61GB	推論版。この中では最小
`DeepSeek-V4-Pro`	1.6T total / 49B active	864.70GB	推論版。より強力だが非常に大きい
`DeepSeek-V4-Flash-Base`	284B total	294.67GB	Base 版。全量 FP8 重みに近いサイズ
`DeepSeek-V4-Pro-Base`	1.6T total	1606.03GB	Base 版。約 1.6TB クラス

最小の V4-Flash でも、公式重みはすでに約 160GB あります。そのため、13B active params だからといって 13B 小型モデルのようには扱えません。

DeepSeek V4 Flash のVRAM見積もり

V4-Flash は DeepSeek V4 の中では最もローカル実験に近いモデルです。ただし、それは Pro と比べた場合の話であり、消費者向け単体GPUモデルではありません。

以下では、公式の 159.61GB 重みサイズを基準にしています。 Q4/Q3/Q2 はビット幅からの推定であり、安定した公式 GGUF 版が存在することを意味しません。

版 / 量子化	推定重みサイズ	最低VRAM	安全なVRAM目安	向く用途
`FP8 / 公式重み`	159.61GB	192GB	256GB	多GPUサーバー、推論サービス
`Q6`	120GB	160GB	192GB	品質優先の量子化実験
`Q5`	100GB	128GB	160GB	品質とサイズのバランス
`Q4`	80GB	96GB	128GB	Flash ローカル化の比較的現実的な出発点
`Q3`	60GB	80GB	96GB	大容量VRAM単体GPUまたは多GPU実験
`Q2`	40GB	48GB	64GB	極限低ビット実験。品質リスクは大きい

将来、成熟した V4-Flash Q4 が出たとしても、24GB GPU向けのモデルにはなりにくいです。より現実的な出発点は、96GB〜128GB 級の総VRAM、または速度を犠牲にした CPU/offload 構成です。

DeepSeek V4 Pro のVRAM見積もり

V4-Pro は旗艦推論版で、公式重みサイズは約 864.70GB です。 4-bit 量子化をしても、完全な重みは数百GB級のままです。

版 / 量子化	推定重みサイズ	最低VRAM	安全なVRAM目安	向く用途
`FP8 / 公式重み`	864.70GB	1TB	1.2TB+	多ノードまたは多GPU推論サービス
`Q6`	648GB	768GB	1TB	高品質な量子化サービス
`Q5`	540GB	640GB	768GB	品質とコストのバランス
`Q4`	432GB	512GB	640GB	Pro ローカル化で現実的な最低品質ライン
`Q3`	324GB	384GB	512GB	低ビット実験
`Q2`	216GB	256GB	320GB	極限実験。品質と安定性のリスクが高い

個人ユーザーにとって、V4-Pro は API 経由で使うほうが現実的です。完全なローカル実行を目指すなら、4090、5090、RTX PRO 単体GPUではなく、多GPUサーバーモデルとして考えるべきです。

DeepSeek V4 Flash-Base のVRAM見積もり

Base 版は通常、研究、微調整、継続学習向けであり、普通のチャット用途の第一候補ではありません。 V4-Flash-Base の公式重みサイズは約 294.67GB です。

版 / 量子化	推定重みサイズ	最低VRAM	安全なVRAM目安	向く用途
`FP8 / 公式重み`	294.67GB	384GB	512GB	研究、前処理、評価
`Q6`	221GB	256GB	320GB	高品質量子化研究
`Q5`	184GB	224GB	256GB	品質とサイズのバランス
`Q4`	147GB	192GB	224GB	低コストな Base 版実験
`Q3`	111GB	128GB	160GB	低ビット実験
`Q2`	74GB	96GB	128GB	極限実験

DeepSeek V4 の能力を使いたいだけなら、Base 版から始めることはおすすめしません。 Base 版はデプロイと調整のコストが高く、通常のアプリケーションには推論版または API のほうが向いています。

DeepSeek V4 Pro-Base のVRAM見積もり

V4-Pro-Base は最も重いバージョンで、公式重みサイズは約 1606.03GB です。これはすでに 1.6TB クラスのモデルファイルです。

版 / 量子化	推定重みサイズ	最低VRAM	安全なVRAM目安	向く用途
`FP8 / 公式重み`	1606.03GB	2TB	2.4TB+	大規模研究クラスタ
`Q6`	1205GB	1.5TB	2TB	高品質量子化研究
`Q5`	1004GB	1.2TB	1.5TB	研究と評価
`Q4`	803GB	1TB	1.2TB	低ビット研究
`Q3`	602GB	768GB	1TB	極限低ビット研究
`Q2`	402GB	512GB	640GB	極限実験

この種のモデルは、「家庭用GPUで動くか」という枠組みで考える対象ではありません。 Q4 であっても、ほとんどの単体ワークステーションの快適な範囲を超えています。

active params だけを見てはいけない理由

DeepSeek V4 は MoE モデルです。 MoE では各 token が一部の専門家だけを有効化するため、計算量は総パラメータ数よりかなり小さくなります。しかし、それはVRAMに active params だけを載せればよいという意味ではありません。

完全なローカル推論では、次の要素も考える必要があります。

すべての専門家重みをGPUに常駐させる必要があるか。
専門家のオンデマンド読み込みに対応しているか。
CPUメモリとGPU VRAM間のデータ転送コスト。
NVMe offload の遅延。
長コンテキストで増える KV cache。
1M context 実行時の追加ランタイムコスト。
多ノード・多GPU通信コスト。

したがって、49B active の V4-Pro を 49B モデルとして扱ってはいけません。 13B active の V4-Flash も、13B 小型モデルとして扱うべきではありません。

どう選ぶか

普通の個人ユーザーなら：

DeepSeek V4 を完全にローカル実行することはおすすめしません。
DeepSeek V4 の能力が必要なら、まず公式 API を使う。
ローカル私有化が必要なら、成熟した推論サービス基盤や社内多GPUサーバーがあるかを先に確認する。
24GB〜48GB VRAM しかない場合は、7B、14B、32B、70B 級の量子化モデルのほうが現実的です。

128GB〜256GB の総VRAMがある場合：

V4-Flash Q4/Q5 の安定したコミュニティ実装を注視する。
V4-Pro を主力ローカルモデルとして扱うのはおすすめしません。

512GB 以上の総VRAMがある場合：

V4-Pro Q4 がようやく工学的な検証対象になります。
それでも推論フレームワーク、専門家スケジューリング、KV cache、スループット、並列性を確認する必要があります。

DeepSeek V4 のローカル部署で重要なのは、「どの量子化ファイルをダウンロードするか」ではありません。「このモデルを支えるだけのシステムレベルの推論能力があるか」です。これはデスクトップモデルというより、サーバーモデルに近い存在です。

参考元

Gemma 4 をローカルで動かす：E2B、E4B、26B、31B の量子化版に必要なVRAM

Fri, 01 May 2026 11:42:34 +0800

Gemma 4 には、ローカル実行向けに主に E2B、E4B、26B A4B、31B の4サイズがあります。 E2B と E4B は軽量・エッジデバイス向け、26B A4B は MoE アーキテクチャ、31B はより大きな dense モデルです。

ローカル実行で混同しやすい数字は次の2つです。

GGUF ファイルサイズ：モデル重みファイルそのものの大きさ。
実際のVRAM使用量：モデル重み、KV cache、ランタイムのオーバーヘッド、コンテキスト長、マルチモーダル投影ファイルの有無で決まる。

以下の表は、GGUF ファイルサイズをもとにVRAM要件を見積もったものです。前提は llama.cpp、LM Studio、Ollama などで、主にテキスト推論を行い、短〜中程度のコンテキストを使うローカル環境です。長いコンテキスト、画像/音声入力、並列リクエストを使う場合は、さらにVRAMの余裕が必要です。

まず結論

VRAM	比較的向く選択	避けたい選択
4GB	E2B の低ビット量子化	E4B 以上
6GB	E2B Q4/Q5、E4B の低ビット量子化	26B、31B
8GB	E2B Q8、E4B Q4/Q5	26B Q4、31B Q4
12GB	E4B Q8、26B/31B の 2-bit/3-bit 実験	26B Q4 の長コンテキスト、31B Q4
16GB	26B 低ビット量子化、31B 低ビット量子化	31B Q4 の長コンテキスト、26B Q5 以上
24GB	26B Q4/Q5、31B Q4	31B Q8、BF16
32GB	26B Q6/Q8、31B Q5/Q6	BF16
48GB	31B Q8 をより余裕を持って実行、26B Q8 の長めのコンテキスト	31B BF16
80GB+	26B/31B BF16	一般的なコンシューマーGPU単体での運用

まずローカルで使えるものを動かしたいなら、E4B Q4_K_M または E2B Q4_K_M から始めるのが現実的です。 24GB VRAM があれば、26B A4B Q4_K_M と 31B Q4_K_M がようやく使いやすい範囲に入ります。

Gemma 4 E2B VRAM表

E2B は最も軽量なバージョンで、ノートPC、ミニPC、モバイル端末、低VRAM環境でのテストに向いています。動かしやすい一方で、複雑な推論、コード生成、長いタスクの安定性には限界があります。

量子化版	GGUF ファイルサイズ	最低VRAM	安全なVRAM目安	向く用途
`UD-IQ2_M`	2.29GB	4GB	6GB	極限の低VRAMテスト
`UD-Q2_K_XL`	2.40GB	4GB	6GB	低VRAMでの可用性優先
`Q3_K_M`	2.54GB	4GB	6GB	軽いチャット、要約
`IQ4_XS`	2.98GB	6GB	8GB	品質とサイズのバランス
`Q4_K_M`	3.11GB	6GB	8GB	E2B の標準的なおすすめ
`Q5_K_M`	3.36GB	6GB	8GB	Q4 より少し安定
`Q6_K`	4.50GB	8GB	10GB	小型モデルで品質優先
`Q8_0`	5.05GB	8GB	10GB	軽量運用で原精度に近づけたい場合
`BF16`	9.31GB	12GB	16GB	デバッグ、比較、研究

日常的な体験なら E2B Q4_K_M で十分です。 4GB VRAM しかない場合は 2-bit や 3-bit も試せますが、出力品質は不安定になりやすくなります。

Gemma 4 E4B VRAM表

E4B は、より実用的な軽量版です。 E2B よりも日常的な文章作成、資料要約、軽いコード補助、ローカルアシスタント用途に向いています。

量子化版	GGUF ファイルサイズ	最低VRAM	安全なVRAM目安	向く用途
`UD-IQ2_M`	3.53GB	6GB	8GB	低VRAMテスト
`UD-Q2_K_XL`	3.74GB	6GB	8GB	低VRAMでの可用性優先
`Q3_K_M`	4.06GB	6GB	10GB	軽量ローカルアシスタント
`IQ4_XS`	4.72GB	8GB	12GB	品質と速度のバランス
`Q4_K_M`	4.98GB	8GB	12GB	E4B の標準的なおすすめ
`Q5_K_M`	5.48GB	8GB	12GB	より安定した日常利用
`Q6_K`	7.07GB	10GB	16GB	品質優先
`Q8_0`	8.19GB	12GB	16GB	原精度に近い実行
`BF16`	15.05GB	20GB	24GB	研究、評価、精度比較

8GB VRAM のGPUなら、E4B Q4_K_M が現実的な出発点です。 12GB または 16GB VRAM があるなら、E4B Q8_0 も候補になります。

Gemma 4 26B A4B VRAM表

26B A4B は MoE 版で、総パラメータ数は大きいものの、推論時には一部の専門家だけを有効化します。より複雑なQ&A、コード、ツール呼び出し、Agent ワークフローに向いています。

量子化版	GGUF ファイルサイズ	最低VRAM	安全なVRAM目安	向く用途
`UD-IQ2_M`	9.97GB	14GB	16GB	16GB GPUでの限界テスト
`UD-Q2_K_XL`	10.55GB	14GB	16GB	低VRAMで 26B を動かす
`UD-Q3_K_M`	12.53GB	16GB	20GB	品質を少し上げつつVRAM節約
`UD-IQ4_XS`	13.42GB	16GB	24GB	品質とサイズのバランス
`UD-Q4_K_M`	16.87GB	20GB	24GB	26B の標準的なおすすめ
`UD-Q5_K_M`	21.15GB	24GB	32GB	より高品質な量子化
`UD-Q6_K`	23.17GB	28GB	32GB	品質優先
`Q8_0`	26.86GB	32GB	40GB	原精度に近い実行
`BF16`	50.51GB	64GB	80GB	一般的な単体コンシューマーGPUでは非現実的

26B A4B を快適に使う分岐点は 24GB VRAM です。 16GB GPU でも低ビット版は試せますが、コンテキスト長、並列性、マルチモーダル入力は控えめにする必要があります。

Gemma 4 31B VRAM表

31B はより大きな dense モデルです。総合能力が高い一方で、VRAM負荷は 26B A4B より直接的に効いてきます。

量子化版	GGUF ファイルサイズ	最低VRAM	安全なVRAM目安	向く用途
`UD-IQ2_XXS`	8.53GB	12GB	16GB	極限低VRAMテスト、品質低下は大きい
`UD-IQ2_M`	10.75GB	14GB	18GB	低VRAMテスト
`UD-Q2_K_XL`	11.77GB	16GB	20GB	16GB GPUでの実験
`Q3_K_S`	13.21GB	16GB	24GB	VRAMを抑えた 3-bit
`Q3_K_M`	14.74GB	20GB	24GB	3-bit の一般的な折衷案
`IQ4_XS`	16.37GB	20GB	24GB	Q4 に近い折衷案
`Q4_K_M`	18.32GB	24GB	32GB	31B の標準的なおすすめ
`Q5_K_M`	21.66GB	28GB	32GB	より高品質な量子化
`Q6_K`	25.20GB	32GB	40GB	品質優先
`Q8_0`	32.64GB	40GB	48GB	原精度に近い実行
`BF16`	61.41GB	80GB	96GB	サーバーまたは大容量VRAMワークステーション

31B の低ビット版は 16GB GPU でも実験できますが、日常利用には 24GB VRAM から始めるのが無難です。 Q4_K_M はバランスのよい選択で、Q5_K_M 以上は 32GB 以上のVRAMでより現実的です。

実際の使用量がファイルサイズより増える理由

GGUF ファイルサイズは重みの大きさにすぎません。実行時には次のような追加コストがあります。

KV cache：コンテキストが長いほど使用量が増える。
バッチサイズと並列性：一度に処理する token やユーザー数が増えるとVRAMも増える。
マルチモーダル部品：画像、音声、動画入力では通常 mmproj や追加モジュールが必要。
ランタイムバックエンド：CUDA、Metal、ROCm、CPU/GPU 分割ロードで占用が変わる。
KV cache 量子化：q8_0、q4_0 などでVRAMを節約できるが、細部に影響する場合がある。

そのため、表の「最低VRAM」は「起動して短いコンテキストで動く」目安として見るべきです。 32K、64K、128K、さらに 256K コンテキストを使う場合、必要VRAMは大きく増えます。

どう選ぶか

ローカルで Gemma 4 を試したいだけなら：

4GB〜6GB VRAM：E2B Q3_K_M または E2B Q4_K_M。
8GB VRAM：まず E4B Q4_K_M。E2B Q8_0 も選択肢。
12GB VRAM：E4B Q8_0、または 26B/31B の低ビット版を試す。
16GB VRAM：26B A4B UD-Q3_K_M または 31B Q3_K_S を試せるが、長いコンテキストは期待しすぎない。
24GB VRAM：26B A4B UD-Q4_K_M と 31B Q4_K_M が本命。
32GB 以上：Q5_K_M、Q6_K、またはより長いコンテキストを検討。

多くのユーザーに BF16 は不要です。ローカル部署で重要なのは、ファイルサイズの大きさではなく、VRAM、速度、コンテキスト長、出力品質のバランスです。