Qwen3.6 目前最適合本地部署討論的開放權重版本,主要是兩類:
Qwen3.6-27B:27B 稠密模型。Qwen3.6-35B-A3B:35B total / 3B active 的 MoE 模型。
還有一些線上產品名或 API 模型名,例如 Qwen3.6-Plus、Qwen3.6-Max。
這類模型如果沒有公開完整權重和穩定量化檔案,就不適合列入本地顯存表。
本文只整理可以圍繞 Hugging Face 權重與 GGUF 量化檔案部署的版本。
和 /05/10 的 Gemma 4 表一樣,這裡也要先區分兩個概念:
- GGUF 檔案體積:模型權重檔案本身有多大。
- 實際顯存占用:模型權重、KV cache、上下文長度、執行後端、多模態模組、批次大小共同決定。
Qwen3.6 的預設上下文很長,官方模型卡裡寫到原生支援 262,144 tokens,並可擴展到 1,010,000 tokens。
所以表格裡的「最低顯存」只適合短上下文或中等上下文。
如果你真的要跑 128K、256K 或更長上下文,必須額外給 KV cache 留大量空間。
先看結論
| 顯存 | 比較合適的選擇 | 不建議硬上 |
|---|---|---|
| 8GB | 27B / 35B-A3B 的 2-bit 極限嘗試,品質風險較高 | Q4 以上 |
| 12GB | 27B Q2/Q3,35B-A3B Q2/Q3 短上下文 | 27B Q4 長上下文 |
| 16GB | 27B Q3/Q4,35B-A3B Q3/IQ4_XS | 35B-A3B Q4 長上下文 |
| 24GB | 27B Q4/Q5/Q6,35B-A3B Q4 | 35B-A3B Q8、BF16 |
| 32GB | 27B Q8,35B-A3B Q5/Q6 | BF16 |
| 48GB | 35B-A3B Q8,27B 長上下文更從容 | 35B-A3B BF16 |
| 80GB+ | 27B / 35B-A3B BF16 | 沒有必要為普通本地聊天追 BF16 |
如果你是 24GB 顯卡,重點看:
Qwen3.6-27B Q4_K_MQwen3.6-27B Q5_K_MQwen3.6-35B-A3B UD-Q4_K_M
如果你只有 16GB 顯存,優先從低位寬版本開始,不要一上來就開超長上下文。
官方權重體積
以下是官方 Hugging Face 倉庫中 model.safetensors.index.json 統計到的 BF16 權重體積。
它可以作為原始權重規模參考。
| 模型 | 架構 | 官方 BF16 權重體積 | 官方上下文 |
|---|---|---|---|
Qwen3.6-27B |
27B dense | 55.56GB | 262K 原生,可擴展到 1,010K |
Qwen3.6-35B-A3B |
35B total / 3B active MoE | 71.90GB | 262K 原生,可擴展到 1,010K |
35B-A3B 雖然每次只啟用約 3B 參數,但它仍然需要載入完整 MoE 權重。
所以它不能按 3B 小模型來估算顯存。
Qwen3.6-27B 顯存表
Qwen3.6-27B 是稠密模型,優點是能力穩定,缺點是推理成本更接近傳統 27B 模型。
從本地部署角度看,它比 35B-A3B 更吃計算,但顯存需求更容易預估。
| 量化版本 | GGUF 檔案體積 | 最低顯存 | 更穩妥顯存 | 適合場景 |
|---|---|---|---|---|
UD-IQ2_XXS |
9.39GB | 12GB | 16GB | 極限低顯存嘗試 |
UD-IQ2_M |
10.85GB | 12GB | 16GB | 低顯存可用性優先 |
UD-Q2_K_XL |
11.85GB | 14GB | 18GB | 低位寬折中 |
UD-IQ3_XXS |
11.99GB | 14GB | 18GB | 省顯存的 3-bit |
Q3_K_S |
12.36GB | 16GB | 20GB | 3-bit 入門 |
Q3_K_M |
13.59GB | 16GB | 20GB | 3-bit 常用折中 |
IQ4_XS |
15.44GB | 20GB | 24GB | 接近 Q4 的省顯存選擇 |
IQ4_NL |
16.07GB | 20GB | 24GB | 品質和體積折中 |
Q4_K_M |
16.82GB | 20GB | 24GB | 27B 常用推薦 |
Q5_K_M |
19.51GB | 24GB | 32GB | 更穩的高品質量化 |
Q6_K |
22.52GB | 28GB | 32GB | 品質優先 |
Q8_0 |
28.60GB | 32GB | 40GB | 接近原始精度 |
BF16 |
53.80GB | 64GB | 80GB | 研究、評測、精度對比 |
如果只是普通本地編碼和聊天,Q4_K_M 是最容易推薦的起點。
24GB 顯卡可以比較舒服地跑 Q4_K_M,但如果要長上下文,最好降低量化位寬或減少上下文長度。
Qwen3.6-35B-A3B 顯存表
Qwen3.6-35B-A3B 是 MoE 模型,35B total,但每次啟用約 3B 參數。
它的優勢是速度和能力之間的平衡很好,尤其適合本地 Agent、工具呼叫、程式碼協作。
但要注意:MoE 的 3B active 主要影響計算量,不代表顯存只需要 3B 模型級別。
完整執行仍要載入專家權重。
| 量化版本 | GGUF 檔案體積 | 最低顯存 | 更穩妥顯存 | 適合場景 |
|---|---|---|---|---|
UD-IQ2_XXS |
10.76GB | 12GB | 16GB | 極限低顯存嘗試 |
UD-IQ2_M |
11.52GB | 14GB | 16GB | 低顯存可用性優先 |
UD-Q2_K_XL |
12.29GB | 14GB | 18GB | 低位寬折中 |
UD-IQ3_XXS |
13.21GB | 16GB | 20GB | 省顯存的 3-bit |
UD-Q3_K_S |
15.36GB | 18GB | 24GB | 3-bit 入門 |
UD-Q3_K_M |
16.60GB | 20GB | 24GB | 3-bit 常用折中 |
UD-IQ4_XS |
17.73GB | 20GB | 24GB | 品質和體積折中 |
UD-IQ4_NL |
18.04GB | 20GB | 24GB | 接近 Q4 的推薦選擇 |
UD-Q4_K_M |
22.13GB | 24GB | 32GB | 35B-A3B 常用推薦 |
UD-Q5_K_M |
26.46GB | 32GB | 40GB | 更穩的高品質量化 |
UD-Q6_K |
29.31GB | 32GB | 48GB | 品質優先 |
Q8_0 |
36.90GB | 48GB | 64GB | 接近原始精度 |
BF16 |
69.37GB | 80GB | 96GB | 研究、評測、精度對比 |
24GB 顯存可以把 UD-Q4_K_M 作為重點選擇,但上下文不要開得太誇張。
如果想給 128K 以上上下文留空間,UD-IQ4_XS、UD-IQ4_NL 或 3-bit 版本會更現實。
27B 和 35B-A3B 怎麼選
| 需求 | 更推薦 |
|---|---|
| 穩定稠密模型表現 | Qwen3.6-27B |
| 更快響應、Agent 和工具呼叫 | Qwen3.6-35B-A3B |
| 24GB 顯存日常本地用 | 35B-A3B UD-Q4_K_M 或 27B Q4_K_M |
| 16GB 顯存嘗試 | 兩者都選 2-bit/3-bit,不建議長上下文 |
| 長上下文優先 | 降低量化位寬,留更多 KV cache 空間 |
| 品質優先且有 32GB+ 顯存 | 27B Q5/Q6 或 35B-A3B Q5/Q6 |
如果你主要寫程式碼、跑 Agent、做工具呼叫,35B-A3B 更值得先試。
如果你更在意稠密模型的穩定性和一致性,27B 更直觀。
為什麼長上下文會吃掉大量顯存
Qwen3.6 的模型卡建議在複雜任務中保持較長上下文,甚至提到 128K 以上上下文對思考能力有幫助。
但對本地部署來說,長上下文意味著更大的 KV cache。
影響實際顯存的因素包括:
KV cache:上下文越長,占用越高。- 是否啟用視覺輸入:Qwen3.6 是帶視覺編碼器的模型,多模態場景會增加額外開銷。
- 是否使用
--language-model-only:在 vLLM 等執行時裡,跳過視覺部分可以釋放一部分記憶體給 KV cache。 - 批次大小和並發:並發越高,顯存需求越高。
- KV cache 量化:
q8_0、q4_0等設定可以省顯存,但可能影響細節。 - 執行時差異:llama.cpp、vLLM、SGLang、KTransformers、LM Studio 的占用不完全一樣。
所以不要只看 GGUF 檔案大小。 如果檔案已經接近顯存上限,模型即使能載入,也可能在生成長文字或長上下文時 OOM。
怎麼選
如果你只是想本地體驗 Qwen3.6:
- 12GB 顯存:嘗試
27B UD-IQ2_M或35B-A3B UD-IQ2_M,上下文要短。 - 16GB 顯存:嘗試
27B Q3_K_M或35B-A3B UD-IQ3_XXS。 - 24GB 顯存:優先看
27B Q4_K_M、35B-A3B UD-IQ4_NL、35B-A3B UD-Q4_K_M。 - 32GB 顯存:可以考慮
27B Q5/Q6或35B-A3B Q5/Q6。 - 48GB 以上:可以嘗試
Q8_0,或者給長上下文留更多空間。
一般使用者不需要追 BF16。 Qwen3.6 的本地部署重點不是「檔案越大越好」,而是在顯存、上下文長度、速度和輸出品質之間找到平衡。