Qwen3.6 をローカルで動かす：27B と 35B-A3B の量子化版に必要なVRAM

Fri, 01 May 2026 12:02:00 +0800

Qwen3.6 でローカル部署の対象として特に重要な公開重み版は、主に次の2つです。

Qwen3.6-27B：27B の dense モデル。
Qwen3.6-35B-A3B：35B total / 3B active の MoE モデル。

Qwen3.6-Plus や Qwen3.6-Max のようなオンライン製品名や API モデル名もあります。ただし、完全な公開重みと安定した量子化ファイルがないモデルは、ローカルVRAM表には向きません。この記事では、Hugging Face の重みと GGUF 量子化ファイルをもとに部署できるバージョンだけを扱います。

/05/10 の Gemma 4 表と同じように、まず次の2つを分けて考える必要があります。

GGUF ファイルサイズ：モデル重みファイルそのものの大きさ。
実際のVRAM使用量：重み、KV cache、コンテキスト長、ランタイムバックエンド、マルチモーダルモジュール、バッチサイズで決まる。

Qwen3.6 は標準のコンテキストが非常に長く、公式モデルカードでは 262,144 tokens をネイティブでサポートし、1,010,000 tokens まで拡張可能とされています。そのため、表の「最低VRAM」は短い、または中程度のコンテキストを前提にした目安です。 128K、256K、またはそれ以上のコンテキストを本当に使う場合は、KV cache 用にかなり多くの余裕が必要です。

まず結論

VRAM	比較的向く選択	避けたい選択
8GB	27B / 35B-A3B の 2-bit 極限テスト。品質リスクは高い	Q4 以上
12GB	27B Q2/Q3、35B-A3B Q2/Q3 の短コンテキスト	27B Q4 の長コンテキスト
16GB	27B Q3/Q4、35B-A3B Q3/IQ4_XS	35B-A3B Q4 の長コンテキスト
24GB	27B Q4/Q5/Q6、35B-A3B Q4	35B-A3B Q8、BF16
32GB	27B Q8、35B-A3B Q5/Q6	BF16
48GB	35B-A3B Q8、27B の長めのコンテキストをより余裕を持って実行	35B-A3B BF16
80GB+	27B / 35B-A3B BF16	通常のローカルチャットで BF16 を追う必要はない

24GB GPU なら、重点的に見るべきなのは次の3つです。

Qwen3.6-27B Q4_K_M
Qwen3.6-27B Q5_K_M
Qwen3.6-35B-A3B UD-Q4_K_M

16GB VRAM しかない場合は、低ビット幅版から始め、いきなり超長コンテキストを使わないほうが安全です。

公式重みサイズ

以下は、公式 Hugging Face リポジトリの model.safetensors.index.json から確認できる BF16 重みサイズです。元のモデル規模を見るための参考になります。

モデル	アーキテクチャ	公式 BF16 重みサイズ	公式コンテキスト
`Qwen3.6-27B`	27B dense	55.56GB	ネイティブ 262K、1,010K まで拡張可能
`Qwen3.6-35B-A3B`	35B total / 3B active MoE	71.90GB	ネイティブ 262K、1,010K まで拡張可能

35B-A3B は各ステップで約 3B パラメータだけを有効化しますが、完全な MoE 重みを読み込む必要があります。そのため、3B 小型モデルのようにVRAMを見積もることはできません。

Qwen3.6-27B VRAM表

Qwen3.6-27B は dense モデルで、安定した挙動が強みです。一方で推論コストは従来の 27B モデルに近くなります。ローカル部署の観点では、35B-A3B より計算量は重いものの、VRAM要件は見積もりやすいです。

量子化版	GGUF ファイルサイズ	最低VRAM	安全なVRAM目安	向く用途
`UD-IQ2_XXS`	9.39GB	12GB	16GB	極限低VRAMテスト
`UD-IQ2_M`	10.85GB	12GB	16GB	低VRAMでの可用性優先
`UD-Q2_K_XL`	11.85GB	14GB	18GB	低ビット幅の折衷案
`UD-IQ3_XXS`	11.99GB	14GB	18GB	VRAMを抑えた 3-bit
`Q3_K_S`	12.36GB	16GB	20GB	3-bit 入門
`Q3_K_M`	13.59GB	16GB	20GB	3-bit の一般的な折衷案
`IQ4_XS`	15.44GB	20GB	24GB	Q4 に近い省VRAM選択
`IQ4_NL`	16.07GB	20GB	24GB	品質とサイズのバランス
`Q4_K_M`	16.82GB	20GB	24GB	27B の標準的なおすすめ
`Q5_K_M`	19.51GB	24GB	32GB	より高品質な量子化
`Q6_K`	22.52GB	28GB	32GB	品質優先
`Q8_0`	28.60GB	32GB	40GB	原精度に近い実行
`BF16`	53.80GB	64GB	80GB	研究、評価、精度比較

普通のローカルコーディングやチャットなら、Q4_K_M が最もおすすめしやすい出発点です。 24GB GPU なら Q4_K_M は比較的快適に動かせますが、長いコンテキストを使う場合は量子化サイズかコンテキスト長を下げるほうが安全です。

Qwen3.6-35B-A3B VRAM表

Qwen3.6-35B-A3B は MoE モデルで、35B total、各ステップで約 3B パラメータを有効化します。速度と能力のバランスがよく、特にローカル Agent、ツール呼び出し、コード作業に向いています。

ただし、MoE の 3B active は主に計算量に効くものであり、VRAMが 3B モデル相当で済むという意味ではありません。完全に動かすには専門家重みを読み込む必要があります。

量子化版	GGUF ファイルサイズ	最低VRAM	安全なVRAM目安	向く用途
`UD-IQ2_XXS`	10.76GB	12GB	16GB	極限低VRAMテスト
`UD-IQ2_M`	11.52GB	14GB	16GB	低VRAMでの可用性優先
`UD-Q2_K_XL`	12.29GB	14GB	18GB	低ビット幅の折衷案
`UD-IQ3_XXS`	13.21GB	16GB	20GB	VRAMを抑えた 3-bit
`UD-Q3_K_S`	15.36GB	18GB	24GB	3-bit 入門
`UD-Q3_K_M`	16.60GB	20GB	24GB	3-bit の一般的な折衷案
`UD-IQ4_XS`	17.73GB	20GB	24GB	品質とサイズのバランス
`UD-IQ4_NL`	18.04GB	20GB	24GB	Q4 に近いおすすめ選択
`UD-Q4_K_M`	22.13GB	24GB	32GB	35B-A3B の標準的なおすすめ
`UD-Q5_K_M`	26.46GB	32GB	40GB	より高品質な量子化
`UD-Q6_K`	29.31GB	32GB	48GB	品質優先
`Q8_0`	36.90GB	48GB	64GB	原精度に近い実行
`BF16`	69.37GB	80GB	96GB	研究、評価、精度比較

24GB VRAM なら UD-Q4_K_M が有力ですが、コンテキストは上げすぎないほうがよいです。 128K 以上のコンテキストに余裕を残したい場合、UD-IQ4_XS、UD-IQ4_NL、または 3-bit 版のほうが現実的です。

27B と 35B-A3B の選び方

目的	よりおすすめ
dense モデルの安定性	`Qwen3.6-27B`
速い応答、Agent、ツール呼び出し	`Qwen3.6-35B-A3B`
24GB VRAM での日常ローカル利用	`35B-A3B UD-Q4_K_M` または `27B Q4_K_M`
16GB VRAM での試用	どちらも 2-bit/3-bit。長コンテキストは避ける
長コンテキスト優先	低ビット量子化にして KV cache の余裕を残す
32GB+ VRAM で品質優先	`27B Q5/Q6` または `35B-A3B Q5/Q6`

コードを書いたり、Agent を動かしたり、ツール呼び出しを使うなら、35B-A3B を先に試す価値があります。 dense モデルの安定性や一貫性を重視するなら、27B のほうがわかりやすい選択です。

長コンテキストが大量のVRAMを使う理由

Qwen3.6 のモデルカードでは、複雑なタスクで長めのコンテキストを保つことが推奨されており、128K 以上のコンテキストが思考能力に役立つとも述べられています。しかしローカル部署では、長コンテキストは大きな KV cache を意味します。

実際のVRAM使用量に影響する要素は次の通りです。

KV cache：コンテキストが長いほど使用量が増える。
視覚入力を有効にするかどうか：Qwen3.6 は視覚エンコーダを持つため、マルチモーダル利用では追加コストがある。
--language-model-only を使うかどうか：vLLM などでは、視覚部分をスキップすると KV cache 用のメモリを一部空けられる。
バッチサイズと並列性：並列性が高いほどVRAM要求も高くなる。
KV cache 量子化：q8_0、q4_0 などはVRAMを節約できるが、細部に影響する場合がある。
ランタイム差：llama.cpp、vLLM、SGLang、KTransformers、LM Studio の使用量は完全には同じではない。

そのため、GGUF ファイルサイズだけを見てはいけません。ファイルがすでにVRAM上限に近い場合、モデルは読み込めても、長い出力や長コンテキスト生成で OOM になる可能性があります。

どう選ぶか

ローカルで Qwen3.6 を試したいだけなら：

12GB VRAM：27B UD-IQ2_M または 35B-A3B UD-IQ2_M。コンテキストは短くする。
16GB VRAM：27B Q3_K_M または 35B-A3B UD-IQ3_XXS。
24GB VRAM：27B Q4_K_M、35B-A3B UD-IQ4_NL、35B-A3B UD-Q4_K_M を優先。
32GB VRAM：27B Q5/Q6 または 35B-A3B Q5/Q6 を検討。
48GB 以上：Q8_0 を試すか、長コンテキスト用に余裕を残す。

多くのユーザーに BF16 は不要です。 Qwen3.6 のローカル部署で重要なのは、ファイルサイズの大きさではなく、VRAM、コンテキスト長、速度、出力品質のバランスです。

Qwen3.6 on KnightLiブログ