Qwen3.6 目前最适合本地部署讨论的开放权重版本,主要是两类:
Qwen3.6-27B:27B 稠密模型。Qwen3.6-35B-A3B:35B total / 3B active 的 MoE 模型。
还有一些线上产品名或 API 模型名,例如 Qwen3.6-Plus、Qwen3.6-Max。
这类模型如果没有公开完整权重和稳定量化文件,就不适合列入本地显存表。
本文只整理可以围绕 Hugging Face 权重与 GGUF 量化文件部署的版本。
和 /05/10 的 Gemma 4 表一样,这里也要先区分两个概念:
- GGUF 文件体积:模型权重文件本身有多大。
- 实际显存占用:模型权重、KV cache、上下文长度、运行后端、多模态模块、批大小共同决定。
Qwen3.6 的默认上下文很长,官方模型卡里写到原生支持 262,144 tokens,并可扩展到 1,010,000 tokens。
所以表格里的“最低显存”只适合短上下文或中等上下文。
如果你真的要跑 128K、256K 或更长上下文,必须额外给 KV cache 留大量空间。
先看结论
| 显存 | 比较合适的选择 | 不建议硬上 |
|---|---|---|
| 8GB | 27B / 35B-A3B 的 2-bit 极限尝试,质量风险较高 | Q4 以上 |
| 12GB | 27B Q2/Q3,35B-A3B Q2/Q3 短上下文 | 27B Q4 长上下文 |
| 16GB | 27B Q3/Q4,35B-A3B Q3/IQ4_XS | 35B-A3B Q4 长上下文 |
| 24GB | 27B Q4/Q5/Q6,35B-A3B Q4 | 35B-A3B Q8、BF16 |
| 32GB | 27B Q8,35B-A3B Q5/Q6 | BF16 |
| 48GB | 35B-A3B Q8,27B 长上下文更从容 | 35B-A3B BF16 |
| 80GB+ | 27B / 35B-A3B BF16 | 没有必要为普通本地聊天追 BF16 |
如果你是 24GB 显卡,重点看:
Qwen3.6-27B Q4_K_MQwen3.6-27B Q5_K_MQwen3.6-35B-A3B UD-Q4_K_M
如果你只有 16GB 显存,优先从低位宽版本开始,不要一上来就开超长上下文。
官方权重体积
以下是官方 Hugging Face 仓库中 model.safetensors.index.json 统计到的 BF16 权重体积。
它可以作为原始权重规模参考。
| 模型 | 架构 | 官方 BF16 权重体积 | 官方上下文 |
|---|---|---|---|
Qwen3.6-27B |
27B dense | 55.56GB | 262K 原生,可扩展到 1,010K |
Qwen3.6-35B-A3B |
35B total / 3B active MoE | 71.90GB | 262K 原生,可扩展到 1,010K |
35B-A3B 虽然每次只激活约 3B 参数,但它仍然需要加载完整 MoE 权重。
所以它不能按 3B 小模型来估算显存。
Qwen3.6-27B 显存表
Qwen3.6-27B 是稠密模型,优点是能力稳定,缺点是推理成本更接近传统 27B 模型。
从本地部署角度看,它比 35B-A3B 更吃计算,但显存需求更容易预估。
| 量化版本 | GGUF 文件体积 | 最低显存 | 更稳妥显存 | 适合场景 |
|---|---|---|---|---|
UD-IQ2_XXS |
9.39GB | 12GB | 16GB | 极限低显存尝试 |
UD-IQ2_M |
10.85GB | 12GB | 16GB | 低显存可用性优先 |
UD-Q2_K_XL |
11.85GB | 14GB | 18GB | 低位宽折中 |
UD-IQ3_XXS |
11.99GB | 14GB | 18GB | 省显存的 3-bit |
Q3_K_S |
12.36GB | 16GB | 20GB | 3-bit 入门 |
Q3_K_M |
13.59GB | 16GB | 20GB | 3-bit 常用折中 |
IQ4_XS |
15.44GB | 20GB | 24GB | 接近 Q4 的省显存选择 |
IQ4_NL |
16.07GB | 20GB | 24GB | 质量和体积折中 |
Q4_K_M |
16.82GB | 20GB | 24GB | 27B 常用推荐 |
Q5_K_M |
19.51GB | 24GB | 32GB | 更稳的高质量量化 |
Q6_K |
22.52GB | 28GB | 32GB | 质量优先 |
Q8_0 |
28.60GB | 32GB | 40GB | 接近原始精度 |
BF16 |
53.80GB | 64GB | 80GB | 研究、评测、精度对比 |
如果只是普通本地编码和聊天,Q4_K_M 是最容易推荐的起点。
24GB 显卡可以比较舒服地跑 Q4_K_M,但如果要长上下文,最好降低量化位宽或减少上下文长度。
Qwen3.6-35B-A3B 显存表
Qwen3.6-35B-A3B 是 MoE 模型,35B total,但每次激活约 3B 参数。
它的优势是速度和能力之间的平衡很好,尤其适合本地 Agent、工具调用、代码协作。
但要注意:MoE 的 3B active 主要影响计算量,不代表显存只需要 3B 模型级别。
完整运行仍要加载专家权重。
| 量化版本 | GGUF 文件体积 | 最低显存 | 更稳妥显存 | 适合场景 |
|---|---|---|---|---|
UD-IQ2_XXS |
10.76GB | 12GB | 16GB | 极限低显存尝试 |
UD-IQ2_M |
11.52GB | 14GB | 16GB | 低显存可用性优先 |
UD-Q2_K_XL |
12.29GB | 14GB | 18GB | 低位宽折中 |
UD-IQ3_XXS |
13.21GB | 16GB | 20GB | 省显存的 3-bit |
UD-Q3_K_S |
15.36GB | 18GB | 24GB | 3-bit 入门 |
UD-Q3_K_M |
16.60GB | 20GB | 24GB | 3-bit 常用折中 |
UD-IQ4_XS |
17.73GB | 20GB | 24GB | 质量和体积折中 |
UD-IQ4_NL |
18.04GB | 20GB | 24GB | 接近 Q4 的推荐选择 |
UD-Q4_K_M |
22.13GB | 24GB | 32GB | 35B-A3B 常用推荐 |
UD-Q5_K_M |
26.46GB | 32GB | 40GB | 更稳的高质量量化 |
UD-Q6_K |
29.31GB | 32GB | 48GB | 质量优先 |
Q8_0 |
36.90GB | 48GB | 64GB | 接近原始精度 |
BF16 |
69.37GB | 80GB | 96GB | 研究、评测、精度对比 |
24GB 显存可以把 UD-Q4_K_M 作为重点选择,但上下文不要开得太夸张。
如果想给 128K 以上上下文留空间,UD-IQ4_XS、UD-IQ4_NL 或 3-bit 版本会更现实。
27B 和 35B-A3B 怎么选
| 需求 | 更推荐 |
|---|---|
| 稳定稠密模型表现 | Qwen3.6-27B |
| 更快响应、Agent 和工具调用 | Qwen3.6-35B-A3B |
| 24GB 显存日常本地用 | 35B-A3B UD-Q4_K_M 或 27B Q4_K_M |
| 16GB 显存尝试 | 两者都选 2-bit/3-bit,不建议长上下文 |
| 长上下文优先 | 降低量化位宽,留更多 KV cache 空间 |
| 质量优先且有 32GB+ 显存 | 27B Q5/Q6 或 35B-A3B Q5/Q6 |
如果你主要写代码、跑 Agent、做工具调用,35B-A3B 更值得先试。
如果你更在意稠密模型的稳定性和一致性,27B 更直观。
为什么长上下文会吃掉大量显存
Qwen3.6 的模型卡建议在复杂任务中保持较长上下文,甚至提到 128K 以上上下文对思考能力有帮助。
但对本地部署来说,长上下文意味着更大的 KV cache。
影响实际显存的因素包括:
KV cache:上下文越长,占用越高。- 是否启用视觉输入:Qwen3.6 是带视觉编码器的模型,多模态场景会增加额外开销。
- 是否使用
--language-model-only:在 vLLM 等运行时里,跳过视觉部分可以释放一部分内存给 KV cache。 - 批大小和并发:并发越高,显存需求越高。
- KV cache 量化:
q8_0、q4_0等设置可以省显存,但可能影响细节。 - 运行时差异:llama.cpp、vLLM、SGLang、KTransformers、LM Studio 的占用不完全一样。
所以不要只看 GGUF 文件大小。 如果文件已经接近显存上限,模型即使能加载,也可能在生成长文本或长上下文时 OOM。
怎么选
如果你只是想本地体验 Qwen3.6:
- 12GB 显存:尝试
27B UD-IQ2_M或35B-A3B UD-IQ2_M,上下文要短。 - 16GB 显存:尝试
27B Q3_K_M或35B-A3B UD-IQ3_XXS。 - 24GB 显存:优先看
27B Q4_K_M、35B-A3B UD-IQ4_NL、35B-A3B UD-Q4_K_M。 - 32GB 显存:可以考虑
27B Q5/Q6或35B-A3B Q5/Q6。 - 48GB 以上:可以尝试
Q8_0,或者给长上下文留更多空间。
一般用户不需要追 BF16。 Qwen3.6 的本地部署重点不是“文件越大越好”,而是在显存、上下文长度、速度和输出质量之间找到平衡。