Qwen3.6 でローカル部署の対象として特に重要な公開重み版は、主に次の2つです。
Qwen3.6-27B:27B の dense モデル。Qwen3.6-35B-A3B:35B total / 3B active の MoE モデル。
Qwen3.6-Plus や Qwen3.6-Max のようなオンライン製品名や API モデル名もあります。
ただし、完全な公開重みと安定した量子化ファイルがないモデルは、ローカルVRAM表には向きません。
この記事では、Hugging Face の重みと GGUF 量子化ファイルをもとに部署できるバージョンだけを扱います。
/05/10 の Gemma 4 表と同じように、まず次の2つを分けて考える必要があります。
- GGUF ファイルサイズ:モデル重みファイルそのものの大きさ。
- 実際のVRAM使用量:重み、KV cache、コンテキスト長、ランタイムバックエンド、マルチモーダルモジュール、バッチサイズで決まる。
Qwen3.6 は標準のコンテキストが非常に長く、公式モデルカードでは 262,144 tokens をネイティブでサポートし、1,010,000 tokens まで拡張可能とされています。
そのため、表の「最低VRAM」は短い、または中程度のコンテキストを前提にした目安です。
128K、256K、またはそれ以上のコンテキストを本当に使う場合は、KV cache 用にかなり多くの余裕が必要です。
まず結論
| VRAM | 比較的向く選択 | 避けたい選択 |
|---|---|---|
| 8GB | 27B / 35B-A3B の 2-bit 極限テスト。品質リスクは高い | Q4 以上 |
| 12GB | 27B Q2/Q3、35B-A3B Q2/Q3 の短コンテキスト | 27B Q4 の長コンテキスト |
| 16GB | 27B Q3/Q4、35B-A3B Q3/IQ4_XS | 35B-A3B Q4 の長コンテキスト |
| 24GB | 27B Q4/Q5/Q6、35B-A3B Q4 | 35B-A3B Q8、BF16 |
| 32GB | 27B Q8、35B-A3B Q5/Q6 | BF16 |
| 48GB | 35B-A3B Q8、27B の長めのコンテキストをより余裕を持って実行 | 35B-A3B BF16 |
| 80GB+ | 27B / 35B-A3B BF16 | 通常のローカルチャットで BF16 を追う必要はない |
24GB GPU なら、重点的に見るべきなのは次の3つです。
Qwen3.6-27B Q4_K_MQwen3.6-27B Q5_K_MQwen3.6-35B-A3B UD-Q4_K_M
16GB VRAM しかない場合は、低ビット幅版から始め、いきなり超長コンテキストを使わないほうが安全です。
公式重みサイズ
以下は、公式 Hugging Face リポジトリの model.safetensors.index.json から確認できる BF16 重みサイズです。
元のモデル規模を見るための参考になります。
| モデル | アーキテクチャ | 公式 BF16 重みサイズ | 公式コンテキスト |
|---|---|---|---|
Qwen3.6-27B |
27B dense | 55.56GB | ネイティブ 262K、1,010K まで拡張可能 |
Qwen3.6-35B-A3B |
35B total / 3B active MoE | 71.90GB | ネイティブ 262K、1,010K まで拡張可能 |
35B-A3B は各ステップで約 3B パラメータだけを有効化しますが、完全な MoE 重みを読み込む必要があります。
そのため、3B 小型モデルのようにVRAMを見積もることはできません。
Qwen3.6-27B VRAM表
Qwen3.6-27B は dense モデルで、安定した挙動が強みです。一方で推論コストは従来の 27B モデルに近くなります。
ローカル部署の観点では、35B-A3B より計算量は重いものの、VRAM要件は見積もりやすいです。
| 量子化版 | GGUF ファイルサイズ | 最低VRAM | 安全なVRAM目安 | 向く用途 |
|---|---|---|---|---|
UD-IQ2_XXS |
9.39GB | 12GB | 16GB | 極限低VRAMテスト |
UD-IQ2_M |
10.85GB | 12GB | 16GB | 低VRAMでの可用性優先 |
UD-Q2_K_XL |
11.85GB | 14GB | 18GB | 低ビット幅の折衷案 |
UD-IQ3_XXS |
11.99GB | 14GB | 18GB | VRAMを抑えた 3-bit |
Q3_K_S |
12.36GB | 16GB | 20GB | 3-bit 入門 |
Q3_K_M |
13.59GB | 16GB | 20GB | 3-bit の一般的な折衷案 |
IQ4_XS |
15.44GB | 20GB | 24GB | Q4 に近い省VRAM選択 |
IQ4_NL |
16.07GB | 20GB | 24GB | 品質とサイズのバランス |
Q4_K_M |
16.82GB | 20GB | 24GB | 27B の標準的なおすすめ |
Q5_K_M |
19.51GB | 24GB | 32GB | より高品質な量子化 |
Q6_K |
22.52GB | 28GB | 32GB | 品質優先 |
Q8_0 |
28.60GB | 32GB | 40GB | 原精度に近い実行 |
BF16 |
53.80GB | 64GB | 80GB | 研究、評価、精度比較 |
普通のローカルコーディングやチャットなら、Q4_K_M が最もおすすめしやすい出発点です。
24GB GPU なら Q4_K_M は比較的快適に動かせますが、長いコンテキストを使う場合は量子化サイズかコンテキスト長を下げるほうが安全です。
Qwen3.6-35B-A3B VRAM表
Qwen3.6-35B-A3B は MoE モデルで、35B total、各ステップで約 3B パラメータを有効化します。
速度と能力のバランスがよく、特にローカル Agent、ツール呼び出し、コード作業に向いています。
ただし、MoE の 3B active は主に計算量に効くものであり、VRAMが 3B モデル相当で済むという意味ではありません。
完全に動かすには専門家重みを読み込む必要があります。
| 量子化版 | GGUF ファイルサイズ | 最低VRAM | 安全なVRAM目安 | 向く用途 |
|---|---|---|---|---|
UD-IQ2_XXS |
10.76GB | 12GB | 16GB | 極限低VRAMテスト |
UD-IQ2_M |
11.52GB | 14GB | 16GB | 低VRAMでの可用性優先 |
UD-Q2_K_XL |
12.29GB | 14GB | 18GB | 低ビット幅の折衷案 |
UD-IQ3_XXS |
13.21GB | 16GB | 20GB | VRAMを抑えた 3-bit |
UD-Q3_K_S |
15.36GB | 18GB | 24GB | 3-bit 入門 |
UD-Q3_K_M |
16.60GB | 20GB | 24GB | 3-bit の一般的な折衷案 |
UD-IQ4_XS |
17.73GB | 20GB | 24GB | 品質とサイズのバランス |
UD-IQ4_NL |
18.04GB | 20GB | 24GB | Q4 に近いおすすめ選択 |
UD-Q4_K_M |
22.13GB | 24GB | 32GB | 35B-A3B の標準的なおすすめ |
UD-Q5_K_M |
26.46GB | 32GB | 40GB | より高品質な量子化 |
UD-Q6_K |
29.31GB | 32GB | 48GB | 品質優先 |
Q8_0 |
36.90GB | 48GB | 64GB | 原精度に近い実行 |
BF16 |
69.37GB | 80GB | 96GB | 研究、評価、精度比較 |
24GB VRAM なら UD-Q4_K_M が有力ですが、コンテキストは上げすぎないほうがよいです。
128K 以上のコンテキストに余裕を残したい場合、UD-IQ4_XS、UD-IQ4_NL、または 3-bit 版のほうが現実的です。
27B と 35B-A3B の選び方
| 目的 | よりおすすめ |
|---|---|
| dense モデルの安定性 | Qwen3.6-27B |
| 速い応答、Agent、ツール呼び出し | Qwen3.6-35B-A3B |
| 24GB VRAM での日常ローカル利用 | 35B-A3B UD-Q4_K_M または 27B Q4_K_M |
| 16GB VRAM での試用 | どちらも 2-bit/3-bit。長コンテキストは避ける |
| 長コンテキスト優先 | 低ビット量子化にして KV cache の余裕を残す |
| 32GB+ VRAM で品質優先 | 27B Q5/Q6 または 35B-A3B Q5/Q6 |
コードを書いたり、Agent を動かしたり、ツール呼び出しを使うなら、35B-A3B を先に試す価値があります。
dense モデルの安定性や一貫性を重視するなら、27B のほうがわかりやすい選択です。
長コンテキストが大量のVRAMを使う理由
Qwen3.6 のモデルカードでは、複雑なタスクで長めのコンテキストを保つことが推奨されており、128K 以上のコンテキストが思考能力に役立つとも述べられています。
しかしローカル部署では、長コンテキストは大きな KV cache を意味します。
実際のVRAM使用量に影響する要素は次の通りです。
KV cache:コンテキストが長いほど使用量が増える。- 視覚入力を有効にするかどうか:Qwen3.6 は視覚エンコーダを持つため、マルチモーダル利用では追加コストがある。
--language-model-onlyを使うかどうか:vLLM などでは、視覚部分をスキップすると KV cache 用のメモリを一部空けられる。- バッチサイズと並列性:並列性が高いほどVRAM要求も高くなる。
- KV cache 量子化:
q8_0、q4_0などはVRAMを節約できるが、細部に影響する場合がある。 - ランタイム差:llama.cpp、vLLM、SGLang、KTransformers、LM Studio の使用量は完全には同じではない。
そのため、GGUF ファイルサイズだけを見てはいけません。 ファイルがすでにVRAM上限に近い場合、モデルは読み込めても、長い出力や長コンテキスト生成で OOM になる可能性があります。
どう選ぶか
ローカルで Qwen3.6 を試したいだけなら:
- 12GB VRAM:
27B UD-IQ2_Mまたは35B-A3B UD-IQ2_M。コンテキストは短くする。 - 16GB VRAM:
27B Q3_K_Mまたは35B-A3B UD-IQ3_XXS。 - 24GB VRAM:
27B Q4_K_M、35B-A3B UD-IQ4_NL、35B-A3B UD-Q4_K_Mを優先。 - 32GB VRAM:
27B Q5/Q6または35B-A3B Q5/Q6を検討。 - 48GB 以上:
Q8_0を試すか、長コンテキスト用に余裕を残す。
多くのユーザーに BF16 は不要です。 Qwen3.6 のローカル部署で重要なのは、ファイルサイズの大きさではなく、VRAM、コンテキスト長、速度、出力品質のバランスです。