Qwen3.6 をローカルで動かす:27B と 35B-A3B の量子化版に必要なVRAM

Gemma 4 のVRAM表と同じ形式で、Qwen3.6-27B と Qwen3.6-35B-A3B の主要な GGUF 量子化版について、ファイルサイズ、最低VRAM、より安全なVRAM目安を整理する。

Qwen3.6 でローカル部署の対象として特に重要な公開重み版は、主に次の2つです。

  • Qwen3.6-27B:27B の dense モデル。
  • Qwen3.6-35B-A3B:35B total / 3B active の MoE モデル。

Qwen3.6-PlusQwen3.6-Max のようなオンライン製品名や API モデル名もあります。 ただし、完全な公開重みと安定した量子化ファイルがないモデルは、ローカルVRAM表には向きません。 この記事では、Hugging Face の重みと GGUF 量子化ファイルをもとに部署できるバージョンだけを扱います。

/05/10 の Gemma 4 表と同じように、まず次の2つを分けて考える必要があります。

  • GGUF ファイルサイズ:モデル重みファイルそのものの大きさ。
  • 実際のVRAM使用量:重み、KV cache、コンテキスト長、ランタイムバックエンド、マルチモーダルモジュール、バッチサイズで決まる。

Qwen3.6 は標準のコンテキストが非常に長く、公式モデルカードでは 262,144 tokens をネイティブでサポートし、1,010,000 tokens まで拡張可能とされています。 そのため、表の「最低VRAM」は短い、または中程度のコンテキストを前提にした目安です。 128K、256K、またはそれ以上のコンテキストを本当に使う場合は、KV cache 用にかなり多くの余裕が必要です。

まず結論

VRAM 比較的向く選択 避けたい選択
8GB 27B / 35B-A3B の 2-bit 極限テスト。品質リスクは高い Q4 以上
12GB 27B Q2/Q3、35B-A3B Q2/Q3 の短コンテキスト 27B Q4 の長コンテキスト
16GB 27B Q3/Q4、35B-A3B Q3/IQ4_XS 35B-A3B Q4 の長コンテキスト
24GB 27B Q4/Q5/Q6、35B-A3B Q4 35B-A3B Q8、BF16
32GB 27B Q8、35B-A3B Q5/Q6 BF16
48GB 35B-A3B Q8、27B の長めのコンテキストをより余裕を持って実行 35B-A3B BF16
80GB+ 27B / 35B-A3B BF16 通常のローカルチャットで BF16 を追う必要はない

24GB GPU なら、重点的に見るべきなのは次の3つです。

  • Qwen3.6-27B Q4_K_M
  • Qwen3.6-27B Q5_K_M
  • Qwen3.6-35B-A3B UD-Q4_K_M

16GB VRAM しかない場合は、低ビット幅版から始め、いきなり超長コンテキストを使わないほうが安全です。

公式重みサイズ

以下は、公式 Hugging Face リポジトリの model.safetensors.index.json から確認できる BF16 重みサイズです。 元のモデル規模を見るための参考になります。

モデル アーキテクチャ 公式 BF16 重みサイズ 公式コンテキスト
Qwen3.6-27B 27B dense 55.56GB ネイティブ 262K、1,010K まで拡張可能
Qwen3.6-35B-A3B 35B total / 3B active MoE 71.90GB ネイティブ 262K、1,010K まで拡張可能

35B-A3B は各ステップで約 3B パラメータだけを有効化しますが、完全な MoE 重みを読み込む必要があります。 そのため、3B 小型モデルのようにVRAMを見積もることはできません。

Qwen3.6-27B VRAM表

Qwen3.6-27B は dense モデルで、安定した挙動が強みです。一方で推論コストは従来の 27B モデルに近くなります。 ローカル部署の観点では、35B-A3B より計算量は重いものの、VRAM要件は見積もりやすいです。

量子化版 GGUF ファイルサイズ 最低VRAM 安全なVRAM目安 向く用途
UD-IQ2_XXS 9.39GB 12GB 16GB 極限低VRAMテスト
UD-IQ2_M 10.85GB 12GB 16GB 低VRAMでの可用性優先
UD-Q2_K_XL 11.85GB 14GB 18GB 低ビット幅の折衷案
UD-IQ3_XXS 11.99GB 14GB 18GB VRAMを抑えた 3-bit
Q3_K_S 12.36GB 16GB 20GB 3-bit 入門
Q3_K_M 13.59GB 16GB 20GB 3-bit の一般的な折衷案
IQ4_XS 15.44GB 20GB 24GB Q4 に近い省VRAM選択
IQ4_NL 16.07GB 20GB 24GB 品質とサイズのバランス
Q4_K_M 16.82GB 20GB 24GB 27B の標準的なおすすめ
Q5_K_M 19.51GB 24GB 32GB より高品質な量子化
Q6_K 22.52GB 28GB 32GB 品質優先
Q8_0 28.60GB 32GB 40GB 原精度に近い実行
BF16 53.80GB 64GB 80GB 研究、評価、精度比較

普通のローカルコーディングやチャットなら、Q4_K_M が最もおすすめしやすい出発点です。 24GB GPU なら Q4_K_M は比較的快適に動かせますが、長いコンテキストを使う場合は量子化サイズかコンテキスト長を下げるほうが安全です。

Qwen3.6-35B-A3B VRAM表

Qwen3.6-35B-A3B は MoE モデルで、35B total、各ステップで約 3B パラメータを有効化します。 速度と能力のバランスがよく、特にローカル Agent、ツール呼び出し、コード作業に向いています。

ただし、MoE の 3B active は主に計算量に効くものであり、VRAMが 3B モデル相当で済むという意味ではありません。 完全に動かすには専門家重みを読み込む必要があります。

量子化版 GGUF ファイルサイズ 最低VRAM 安全なVRAM目安 向く用途
UD-IQ2_XXS 10.76GB 12GB 16GB 極限低VRAMテスト
UD-IQ2_M 11.52GB 14GB 16GB 低VRAMでの可用性優先
UD-Q2_K_XL 12.29GB 14GB 18GB 低ビット幅の折衷案
UD-IQ3_XXS 13.21GB 16GB 20GB VRAMを抑えた 3-bit
UD-Q3_K_S 15.36GB 18GB 24GB 3-bit 入門
UD-Q3_K_M 16.60GB 20GB 24GB 3-bit の一般的な折衷案
UD-IQ4_XS 17.73GB 20GB 24GB 品質とサイズのバランス
UD-IQ4_NL 18.04GB 20GB 24GB Q4 に近いおすすめ選択
UD-Q4_K_M 22.13GB 24GB 32GB 35B-A3B の標準的なおすすめ
UD-Q5_K_M 26.46GB 32GB 40GB より高品質な量子化
UD-Q6_K 29.31GB 32GB 48GB 品質優先
Q8_0 36.90GB 48GB 64GB 原精度に近い実行
BF16 69.37GB 80GB 96GB 研究、評価、精度比較

24GB VRAM なら UD-Q4_K_M が有力ですが、コンテキストは上げすぎないほうがよいです。 128K 以上のコンテキストに余裕を残したい場合、UD-IQ4_XSUD-IQ4_NL、または 3-bit 版のほうが現実的です。

27B と 35B-A3B の選び方

目的 よりおすすめ
dense モデルの安定性 Qwen3.6-27B
速い応答、Agent、ツール呼び出し Qwen3.6-35B-A3B
24GB VRAM での日常ローカル利用 35B-A3B UD-Q4_K_M または 27B Q4_K_M
16GB VRAM での試用 どちらも 2-bit/3-bit。長コンテキストは避ける
長コンテキスト優先 低ビット量子化にして KV cache の余裕を残す
32GB+ VRAM で品質優先 27B Q5/Q6 または 35B-A3B Q5/Q6

コードを書いたり、Agent を動かしたり、ツール呼び出しを使うなら、35B-A3B を先に試す価値があります。 dense モデルの安定性や一貫性を重視するなら、27B のほうがわかりやすい選択です。

長コンテキストが大量のVRAMを使う理由

Qwen3.6 のモデルカードでは、複雑なタスクで長めのコンテキストを保つことが推奨されており、128K 以上のコンテキストが思考能力に役立つとも述べられています。 しかしローカル部署では、長コンテキストは大きな KV cache を意味します。

実際のVRAM使用量に影響する要素は次の通りです。

  • KV cache:コンテキストが長いほど使用量が増える。
  • 視覚入力を有効にするかどうか:Qwen3.6 は視覚エンコーダを持つため、マルチモーダル利用では追加コストがある。
  • --language-model-only を使うかどうか:vLLM などでは、視覚部分をスキップすると KV cache 用のメモリを一部空けられる。
  • バッチサイズと並列性:並列性が高いほどVRAM要求も高くなる。
  • KV cache 量子化:q8_0q4_0 などはVRAMを節約できるが、細部に影響する場合がある。
  • ランタイム差:llama.cpp、vLLM、SGLang、KTransformers、LM Studio の使用量は完全には同じではない。

そのため、GGUF ファイルサイズだけを見てはいけません。 ファイルがすでにVRAM上限に近い場合、モデルは読み込めても、長い出力や長コンテキスト生成で OOM になる可能性があります。

どう選ぶか

ローカルで Qwen3.6 を試したいだけなら:

  • 12GB VRAM:27B UD-IQ2_M または 35B-A3B UD-IQ2_M。コンテキストは短くする。
  • 16GB VRAM:27B Q3_K_M または 35B-A3B UD-IQ3_XXS
  • 24GB VRAM:27B Q4_K_M35B-A3B UD-IQ4_NL35B-A3B UD-Q4_K_M を優先。
  • 32GB VRAM:27B Q5/Q6 または 35B-A3B Q5/Q6 を検討。
  • 48GB 以上:Q8_0 を試すか、長コンテキスト用に余裕を残す。

多くのユーザーに BF16 は不要です。 Qwen3.6 のローカル部署で重要なのは、ファイルサイズの大きさではなく、VRAM、コンテキスト長、速度、出力品質のバランスです。

参考元

记录并分享
Hugo で構築されています。
テーマ StackJimmy によって設計されています。