Ejecutar Qwen3.6 en local: requisitos de VRAM para modelos cuantizados 27B y 35B-A3B

Tabla de VRAM al estilo Gemma 4 para Qwen3.6-27B y Qwen3.6-35B-A3B en niveles comunes de cuantización GGUF, con tamaño de archivo, VRAM mínima y margen recomendado.

Los modelos open-weight de Qwen3.6 más relevantes para despliegue local son:

  • Qwen3.6-27B: modelo denso de 27B.
  • Qwen3.6-35B-A3B: modelo MoE de 35B totales / 3B activos.

También existen nombres de producto o API como Qwen3.6-Plus y Qwen3.6-Max. Si un modelo no tiene pesos completos públicos y archivos cuantizados estables, no sirve para una tabla local de VRAM.

Como en la tabla de Gemma 4 de /05/10, hay que separar dos conceptos:

  • Tamaño del archivo GGUF: cuánto ocupa el archivo de pesos.
  • Uso real de VRAM: depende de pesos, KV cache, contexto, backend, módulos multimodales y batch.

Qwen3.6 tiene contexto por defecto muy largo. La model card indica soporte nativo de 262,144 tokens y extensión a 1,010,000 tokens. La columna de VRAM mínima solo aplica a contexto corto o medio.

Resumen rápido

VRAM Buena opción Evitar
8GB Pruebas extremas de 2 bits para 27B / 35B-A3B Q4 y superior
12GB 27B Q2/Q3, 35B-A3B Q2/Q3 con contexto corto 27B Q4 con contexto largo
16GB 27B Q3/Q4, 35B-A3B Q3/IQ4_XS 35B-A3B Q4 con contexto largo
24GB 27B Q4/Q5/Q6, 35B-A3B Q4 35B-A3B Q8, BF16
32GB 27B Q8, 35B-A3B Q5/Q6 BF16
48GB 35B-A3B Q8, 27B con más contexto 35B-A3B BF16
80GB+ 27B / 35B-A3B BF16 No hace falta BF16 para chat local común

Con una GPU de 24GB, los puntos principales son Qwen3.6-27B Q4_K_M, Qwen3.6-27B Q5_K_M y Qwen3.6-35B-A3B UD-Q4_K_M.

Tamaños oficiales de pesos

Model Architecture Official BF16 Weight Size Official Context
Qwen3.6-27B 27B dense 55.56GB Native 262K, extendable to 1,010K
Qwen3.6-35B-A3B 35B total / 3B active MoE 71.90GB Native 262K, extendable to 1,010K

Aunque 35B-A3B active unos 3B parámetros por paso, todavía debe cargar los pesos MoE completos. No debe estimarse como un modelo pequeño de 3B.

Tabla de VRAM de Qwen3.6-27B

Qwen3.6-27B es un modelo denso. Su ventaja es comportamiento estable; su coste se parece al de un 27B tradicional.

Quantization GGUF File Size Minimum VRAM Safer VRAM Best For
UD-IQ2_XXS 9.39GB 12GB 16GB Extreme low-VRAM tests
UD-IQ2_M 10.85GB 12GB 16GB Low-VRAM usability
UD-Q2_K_XL 11.85GB 14GB 18GB Low-bit compromise
UD-IQ3_XXS 11.99GB 14GB 18GB VRAM-saving 3-bit
Q3_K_S 12.36GB 16GB 20GB 3-bit entry point
Q3_K_M 13.59GB 16GB 20GB Common 3-bit compromise
IQ4_XS 15.44GB 20GB 24GB Near-Q4, more VRAM efficient
IQ4_NL 16.07GB 20GB 24GB Quality/size balance
Q4_K_M 16.82GB 20GB 24GB Recommended 27B default
Q5_K_M 19.51GB 24GB 32GB Higher-quality quantization
Q6_K 22.52GB 28GB 32GB Quality first
Q8_0 28.60GB 32GB 40GB Near-original precision
BF16 53.80GB 64GB 80GB Research, evaluation, precision comparison

Para chat y código local, Q4_K_M es el punto de partida más fácil de recomendar. Una GPU de 24GB puede correrlo bastante bien, pero para contexto largo conviene reducir tamaño o contexto.

Tabla de VRAM de Qwen3.6-35B-A3B

Qwen3.6-35B-A3B es un MoE de 35B totales y unos 3B activos por paso. Equilibra velocidad y capacidad, especialmente para agentes, herramientas y código.

Quantization GGUF File Size Minimum VRAM Safer VRAM Best For
UD-IQ2_XXS 10.76GB 12GB 16GB Extreme low-VRAM tests
UD-IQ2_M 11.52GB 14GB 16GB Low-VRAM usability
UD-Q2_K_XL 12.29GB 14GB 18GB Low-bit compromise
UD-IQ3_XXS 13.21GB 16GB 20GB VRAM-saving 3-bit
UD-Q3_K_S 15.36GB 18GB 24GB 3-bit entry point
UD-Q3_K_M 16.60GB 20GB 24GB Common 3-bit compromise
UD-IQ4_XS 17.73GB 20GB 24GB Quality/size balance
UD-IQ4_NL 18.04GB 20GB 24GB Near-Q4 recommended option
UD-Q4_K_M 22.13GB 24GB 32GB Recommended 35B-A3B default
UD-Q5_K_M 26.46GB 32GB 40GB Higher-quality quantization
UD-Q6_K 29.31GB 32GB 48GB Quality first
Q8_0 36.90GB 48GB 64GB Near-original precision
BF16 69.37GB 80GB 96GB Research, evaluation, precision comparison

Con 24GB, UD-Q4_K_M es una opción clave, pero no conviene fijar contexto muy alto. Para 128K+ contexto, versiones UD-IQ4_XS, UD-IQ4_NL o 3-bit son más realistas.

27B vs 35B-A3B

Necesidad Mejor opción
Comportamiento denso estable Qwen3.6-27B
Respuesta más rápida, agentes y herramientas Qwen3.6-35B-A3B
Uso diario en 24GB 35B-A3B UD-Q4_K_M o 27B Q4_K_M
Pruebas en 16GB Usar 2-bit/3-bit y evitar contexto largo
Prioridad a contexto largo Cuantización más baja y más margen para KV cache
Calidad con 32GB+ 27B Q5/Q6 o 35B-A3B Q5/Q6

Si escribes código, usas agentes o herramientas, 35B-A3B merece probarse primero. Si quieres estabilidad de un modelo denso, 27B es más directo.

Por qué el contexto largo consume tanta VRAM

La model card de Qwen3.6 recomienda contexto largo para tareas complejas, e incluso señala que 128K+ puede ayudar al razonamiento. Pero en local, contexto largo significa una KV cache mucho más grande.

El uso real depende de:

  • KV cache;
  • si se usa entrada de visión;
  • si se usa --language-model-only;
  • batch y concurrencia;
  • cuantización de KV cache;
  • diferencias entre llama.cpp, vLLM, SGLang, KTransformers y LM Studio.

No mires solo el tamaño GGUF. Si el archivo ya está cerca del límite de VRAM, puede cargar pero fallar al generar salidas largas.

Cómo elegir

  • 12GB: 27B UD-IQ2_M o 35B-A3B UD-IQ2_M, con contexto corto.
  • 16GB: 27B Q3_K_M o 35B-A3B UD-IQ3_XXS.
  • 24GB: 27B Q4_K_M, 35B-A3B UD-IQ4_NL o 35B-A3B UD-Q4_K_M.
  • 32GB: 27B Q5/Q6 o 35B-A3B Q5/Q6.
  • 48GB+: Q8_0 o más margen para contexto largo.

La mayoría no necesita BF16. El objetivo es equilibrar VRAM, contexto, velocidad y calidad.

Referencias

记录并分享
Creado con Hugo
Tema Stack diseñado por Jimmy