Los modelos open-weight de Qwen3.6 más relevantes para despliegue local son:
Qwen3.6-27B: modelo denso de 27B.Qwen3.6-35B-A3B: modelo MoE de 35B totales / 3B activos.
También existen nombres de producto o API como Qwen3.6-Plus y Qwen3.6-Max. Si un modelo no tiene pesos completos públicos y archivos cuantizados estables, no sirve para una tabla local de VRAM.
Como en la tabla de Gemma 4 de /05/10, hay que separar dos conceptos:
- Tamaño del archivo GGUF: cuánto ocupa el archivo de pesos.
- Uso real de VRAM: depende de pesos, KV cache, contexto, backend, módulos multimodales y batch.
Qwen3.6 tiene contexto por defecto muy largo. La model card indica soporte nativo de 262,144 tokens y extensión a 1,010,000 tokens. La columna de VRAM mínima solo aplica a contexto corto o medio.
Resumen rápido
| VRAM | Buena opción | Evitar |
|---|---|---|
| 8GB | Pruebas extremas de 2 bits para 27B / 35B-A3B | Q4 y superior |
| 12GB | 27B Q2/Q3, 35B-A3B Q2/Q3 con contexto corto | 27B Q4 con contexto largo |
| 16GB | 27B Q3/Q4, 35B-A3B Q3/IQ4_XS | 35B-A3B Q4 con contexto largo |
| 24GB | 27B Q4/Q5/Q6, 35B-A3B Q4 | 35B-A3B Q8, BF16 |
| 32GB | 27B Q8, 35B-A3B Q5/Q6 | BF16 |
| 48GB | 35B-A3B Q8, 27B con más contexto | 35B-A3B BF16 |
| 80GB+ | 27B / 35B-A3B BF16 | No hace falta BF16 para chat local común |
Con una GPU de 24GB, los puntos principales son Qwen3.6-27B Q4_K_M, Qwen3.6-27B Q5_K_M y Qwen3.6-35B-A3B UD-Q4_K_M.
Tamaños oficiales de pesos
| Model | Architecture | Official BF16 Weight Size | Official Context |
|---|---|---|---|
Qwen3.6-27B |
27B dense | 55.56GB | Native 262K, extendable to 1,010K |
Qwen3.6-35B-A3B |
35B total / 3B active MoE | 71.90GB | Native 262K, extendable to 1,010K |
Aunque 35B-A3B active unos 3B parámetros por paso, todavía debe cargar los pesos MoE completos. No debe estimarse como un modelo pequeño de 3B.
Tabla de VRAM de Qwen3.6-27B
Qwen3.6-27B es un modelo denso. Su ventaja es comportamiento estable; su coste se parece al de un 27B tradicional.
| Quantization | GGUF File Size | Minimum VRAM | Safer VRAM | Best For |
|---|---|---|---|---|
UD-IQ2_XXS |
9.39GB | 12GB | 16GB | Extreme low-VRAM tests |
UD-IQ2_M |
10.85GB | 12GB | 16GB | Low-VRAM usability |
UD-Q2_K_XL |
11.85GB | 14GB | 18GB | Low-bit compromise |
UD-IQ3_XXS |
11.99GB | 14GB | 18GB | VRAM-saving 3-bit |
Q3_K_S |
12.36GB | 16GB | 20GB | 3-bit entry point |
Q3_K_M |
13.59GB | 16GB | 20GB | Common 3-bit compromise |
IQ4_XS |
15.44GB | 20GB | 24GB | Near-Q4, more VRAM efficient |
IQ4_NL |
16.07GB | 20GB | 24GB | Quality/size balance |
Q4_K_M |
16.82GB | 20GB | 24GB | Recommended 27B default |
Q5_K_M |
19.51GB | 24GB | 32GB | Higher-quality quantization |
Q6_K |
22.52GB | 28GB | 32GB | Quality first |
Q8_0 |
28.60GB | 32GB | 40GB | Near-original precision |
BF16 |
53.80GB | 64GB | 80GB | Research, evaluation, precision comparison |
Para chat y código local, Q4_K_M es el punto de partida más fácil de recomendar. Una GPU de 24GB puede correrlo bastante bien, pero para contexto largo conviene reducir tamaño o contexto.
Tabla de VRAM de Qwen3.6-35B-A3B
Qwen3.6-35B-A3B es un MoE de 35B totales y unos 3B activos por paso. Equilibra velocidad y capacidad, especialmente para agentes, herramientas y código.
| Quantization | GGUF File Size | Minimum VRAM | Safer VRAM | Best For |
|---|---|---|---|---|
UD-IQ2_XXS |
10.76GB | 12GB | 16GB | Extreme low-VRAM tests |
UD-IQ2_M |
11.52GB | 14GB | 16GB | Low-VRAM usability |
UD-Q2_K_XL |
12.29GB | 14GB | 18GB | Low-bit compromise |
UD-IQ3_XXS |
13.21GB | 16GB | 20GB | VRAM-saving 3-bit |
UD-Q3_K_S |
15.36GB | 18GB | 24GB | 3-bit entry point |
UD-Q3_K_M |
16.60GB | 20GB | 24GB | Common 3-bit compromise |
UD-IQ4_XS |
17.73GB | 20GB | 24GB | Quality/size balance |
UD-IQ4_NL |
18.04GB | 20GB | 24GB | Near-Q4 recommended option |
UD-Q4_K_M |
22.13GB | 24GB | 32GB | Recommended 35B-A3B default |
UD-Q5_K_M |
26.46GB | 32GB | 40GB | Higher-quality quantization |
UD-Q6_K |
29.31GB | 32GB | 48GB | Quality first |
Q8_0 |
36.90GB | 48GB | 64GB | Near-original precision |
BF16 |
69.37GB | 80GB | 96GB | Research, evaluation, precision comparison |
Con 24GB, UD-Q4_K_M es una opción clave, pero no conviene fijar contexto muy alto. Para 128K+ contexto, versiones UD-IQ4_XS, UD-IQ4_NL o 3-bit son más realistas.
27B vs 35B-A3B
| Necesidad | Mejor opción |
|---|---|
| Comportamiento denso estable | Qwen3.6-27B |
| Respuesta más rápida, agentes y herramientas | Qwen3.6-35B-A3B |
| Uso diario en 24GB | 35B-A3B UD-Q4_K_M o 27B Q4_K_M |
| Pruebas en 16GB | Usar 2-bit/3-bit y evitar contexto largo |
| Prioridad a contexto largo | Cuantización más baja y más margen para KV cache |
| Calidad con 32GB+ | 27B Q5/Q6 o 35B-A3B Q5/Q6 |
Si escribes código, usas agentes o herramientas, 35B-A3B merece probarse primero. Si quieres estabilidad de un modelo denso, 27B es más directo.
Por qué el contexto largo consume tanta VRAM
La model card de Qwen3.6 recomienda contexto largo para tareas complejas, e incluso señala que 128K+ puede ayudar al razonamiento. Pero en local, contexto largo significa una KV cache mucho más grande.
El uso real depende de:
KV cache;- si se usa entrada de visión;
- si se usa
--language-model-only; - batch y concurrencia;
- cuantización de KV cache;
- diferencias entre llama.cpp, vLLM, SGLang, KTransformers y LM Studio.
No mires solo el tamaño GGUF. Si el archivo ya está cerca del límite de VRAM, puede cargar pero fallar al generar salidas largas.
Cómo elegir
- 12GB:
27B UD-IQ2_Mo35B-A3B UD-IQ2_M, con contexto corto. - 16GB:
27B Q3_K_Mo35B-A3B UD-IQ3_XXS. - 24GB:
27B Q4_K_M,35B-A3B UD-IQ4_NLo35B-A3B UD-Q4_K_M. - 32GB:
27B Q5/Q6o35B-A3B Q5/Q6. - 48GB+:
Q8_0o más margen para contexto largo.
La mayoría no necesita BF16. El objetivo es equilibrar VRAM, contexto, velocidad y calidad.