VRAM on KnightLi Blog

Ejecutar Qwen3.6 en local: requisitos de VRAM para modelos cuantizados 27B y 35B-A3B

Fri, 01 May 2026 12:02:00 +0800

Los modelos open-weight de Qwen3.6 más relevantes para despliegue local son:

Qwen3.6-27B: modelo denso de 27B.
Qwen3.6-35B-A3B: modelo MoE de 35B totales / 3B activos.

También existen nombres de producto o API como Qwen3.6-Plus y Qwen3.6-Max. Si un modelo no tiene pesos completos públicos y archivos cuantizados estables, no sirve para una tabla local de VRAM.

Como en la tabla de Gemma 4 de /05/10, hay que separar dos conceptos:

Tamaño del archivo GGUF: cuánto ocupa el archivo de pesos.
Uso real de VRAM: depende de pesos, KV cache, contexto, backend, módulos multimodales y batch.

Qwen3.6 tiene contexto por defecto muy largo. La model card indica soporte nativo de 262,144 tokens y extensión a 1,010,000 tokens. La columna de VRAM mínima solo aplica a contexto corto o medio.

Resumen rápido

VRAM	Buena opción	Evitar
8GB	Pruebas extremas de 2 bits para 27B / 35B-A3B	Q4 y superior
12GB	27B Q2/Q3, 35B-A3B Q2/Q3 con contexto corto	27B Q4 con contexto largo
16GB	27B Q3/Q4, 35B-A3B Q3/IQ4_XS	35B-A3B Q4 con contexto largo
24GB	27B Q4/Q5/Q6, 35B-A3B Q4	35B-A3B Q8, BF16
32GB	27B Q8, 35B-A3B Q5/Q6	BF16
48GB	35B-A3B Q8, 27B con más contexto	35B-A3B BF16
80GB+	27B / 35B-A3B BF16	No hace falta BF16 para chat local común

Con una GPU de 24GB, los puntos principales son Qwen3.6-27B Q4_K_M, Qwen3.6-27B Q5_K_M y Qwen3.6-35B-A3B UD-Q4_K_M.

Tamaños oficiales de pesos

Model	Architecture	Official BF16 Weight Size	Official Context
`Qwen3.6-27B`	27B dense	55.56GB	Native 262K, extendable to 1,010K
`Qwen3.6-35B-A3B`	35B total / 3B active MoE	71.90GB	Native 262K, extendable to 1,010K

Aunque 35B-A3B active unos 3B parámetros por paso, todavía debe cargar los pesos MoE completos. No debe estimarse como un modelo pequeño de 3B.

Tabla de VRAM de Qwen3.6-27B

Qwen3.6-27B es un modelo denso. Su ventaja es comportamiento estable; su coste se parece al de un 27B tradicional.

Quantization	GGUF File Size	Minimum VRAM	Safer VRAM	Best For
`UD-IQ2_XXS`	9.39GB	12GB	16GB	Extreme low-VRAM tests
`UD-IQ2_M`	10.85GB	12GB	16GB	Low-VRAM usability
`UD-Q2_K_XL`	11.85GB	14GB	18GB	Low-bit compromise
`UD-IQ3_XXS`	11.99GB	14GB	18GB	VRAM-saving 3-bit
`Q3_K_S`	12.36GB	16GB	20GB	3-bit entry point
`Q3_K_M`	13.59GB	16GB	20GB	Common 3-bit compromise
`IQ4_XS`	15.44GB	20GB	24GB	Near-Q4, more VRAM efficient
`IQ4_NL`	16.07GB	20GB	24GB	Quality/size balance
`Q4_K_M`	16.82GB	20GB	24GB	Recommended 27B default
`Q5_K_M`	19.51GB	24GB	32GB	Higher-quality quantization
`Q6_K`	22.52GB	28GB	32GB	Quality first
`Q8_0`	28.60GB	32GB	40GB	Near-original precision
`BF16`	53.80GB	64GB	80GB	Research, evaluation, precision comparison

Para chat y código local, Q4_K_M es el punto de partida más fácil de recomendar. Una GPU de 24GB puede correrlo bastante bien, pero para contexto largo conviene reducir tamaño o contexto.

Tabla de VRAM de Qwen3.6-35B-A3B

Qwen3.6-35B-A3B es un MoE de 35B totales y unos 3B activos por paso. Equilibra velocidad y capacidad, especialmente para agentes, herramientas y código.

Quantization	GGUF File Size	Minimum VRAM	Safer VRAM	Best For
`UD-IQ2_XXS`	10.76GB	12GB	16GB	Extreme low-VRAM tests
`UD-IQ2_M`	11.52GB	14GB	16GB	Low-VRAM usability
`UD-Q2_K_XL`	12.29GB	14GB	18GB	Low-bit compromise
`UD-IQ3_XXS`	13.21GB	16GB	20GB	VRAM-saving 3-bit
`UD-Q3_K_S`	15.36GB	18GB	24GB	3-bit entry point
`UD-Q3_K_M`	16.60GB	20GB	24GB	Common 3-bit compromise
`UD-IQ4_XS`	17.73GB	20GB	24GB	Quality/size balance
`UD-IQ4_NL`	18.04GB	20GB	24GB	Near-Q4 recommended option
`UD-Q4_K_M`	22.13GB	24GB	32GB	Recommended 35B-A3B default
`UD-Q5_K_M`	26.46GB	32GB	40GB	Higher-quality quantization
`UD-Q6_K`	29.31GB	32GB	48GB	Quality first
`Q8_0`	36.90GB	48GB	64GB	Near-original precision
`BF16`	69.37GB	80GB	96GB	Research, evaluation, precision comparison

Con 24GB, UD-Q4_K_M es una opción clave, pero no conviene fijar contexto muy alto. Para 128K+ contexto, versiones UD-IQ4_XS, UD-IQ4_NL o 3-bit son más realistas.

27B vs 35B-A3B

Necesidad	Mejor opción
Comportamiento denso estable	`Qwen3.6-27B`
Respuesta más rápida, agentes y herramientas	`Qwen3.6-35B-A3B`
Uso diario en 24GB	`35B-A3B UD-Q4_K_M` o `27B Q4_K_M`
Pruebas en 16GB	Usar 2-bit/3-bit y evitar contexto largo
Prioridad a contexto largo	Cuantización más baja y más margen para KV cache
Calidad con 32GB+	`27B Q5/Q6` o `35B-A3B Q5/Q6`

Si escribes código, usas agentes o herramientas, 35B-A3B merece probarse primero. Si quieres estabilidad de un modelo denso, 27B es más directo.

Por qué el contexto largo consume tanta VRAM

La model card de Qwen3.6 recomienda contexto largo para tareas complejas, e incluso señala que 128K+ puede ayudar al razonamiento. Pero en local, contexto largo significa una KV cache mucho más grande.

El uso real depende de:

KV cache;
si se usa entrada de visión;
si se usa --language-model-only;
batch y concurrencia;
cuantización de KV cache;
diferencias entre llama.cpp, vLLM, SGLang, KTransformers y LM Studio.

No mires solo el tamaño GGUF. Si el archivo ya está cerca del límite de VRAM, puede cargar pero fallar al generar salidas largas.

Cómo elegir

12GB: 27B UD-IQ2_M o 35B-A3B UD-IQ2_M, con contexto corto.
16GB: 27B Q3_K_M o 35B-A3B UD-IQ3_XXS.
24GB: 27B Q4_K_M, 35B-A3B UD-IQ4_NL o 35B-A3B UD-Q4_K_M.
32GB: 27B Q5/Q6 o 35B-A3B Q5/Q6.
48GB+: Q8_0 o más margen para contexto largo.

La mayoría no necesita BF16. El objetivo es equilibrar VRAM, contexto, velocidad y calidad.

Referencias

Ejecutar DeepSeek V4 en local: estimaciones de VRAM para versiones Pro, Flash y Base

Fri, 01 May 2026 11:55:25 +0800

DeepSeek V4 y Gemma 4 no están en la misma categoría para despliegue local. Con Gemma 4 todavía tiene sentido hablar de ejecutar modelos 26B o 31B en GPUs de 24GB o 32GB. DeepSeek V4 es un modelo MoE enorme, y el despliegue local completo entra rápidamente en territorio de estaciones multi-GPU o servidores.

El lanzamiento oficial DeepSeek V4 Preview incluye principalmente dos modelos de inferencia:

DeepSeek-V4-Pro: 1.6T total / 49B active params
DeepSeek-V4-Flash: 284B total / 13B active params

La colección oficial de Hugging Face también incluye dos modelos Base:

DeepSeek-V4-Pro-Base
DeepSeek-V4-Flash-Base

Este artículo solo estima VRAM cuando se cargan los pesos completos. En modelos MoE, active params afecta sobre todo al cómputo por token. No significa que solo esos parámetros deban cargarse.

Resumen rápido

Escala de VRAM	Realista	No esperes
24GB	No puede cargar DeepSeek V4 completo; usa modelos destilados o API	V4-Flash / V4-Pro local completo
48GB	Aún no es adecuado para carga completa	V4-Flash Q4 estable
80GB	Pruebas V4-Flash Q2/Q3 u offload pesado	V4-Pro
128GB	V4-Flash Q4 empieza a ser más realista	V4-Pro Q4
192GB	V4-Flash FP8/Q6 más cómodo; Pro Q2 experimental	V4-Pro Q4
256GB	V4-Flash FP8 cómodo; Pro Q2/Q3 puede probarse	V4-Pro Q5+
512GB	V4-Pro Q4 empieza a discutirse	V4-Pro FP8
1TB+	V4-Pro FP8 y Pro-Base de bajo bit	Despliegue barato en una máquina
2TB+	Clase Pro-Base FP8	Estación común

Si tu objetivo es correr un modelo en un PC personal, DeepSeek V4 no es el objetivo adecuado. Es más realista usar API oficial, esperar cuantizaciones comunitarias maduras, usar modelos destilados o elegir modelos locales de 7B a 70B.

Tamaños oficiales de pesos

Las cifras vienen de model.safetensors.index.json en los repositorios oficiales de Hugging Face.

Model	Parameter Scale	Official Weight Size	Notes
`DeepSeek-V4-Flash`	284B total / 13B active	159.61GB	Inference model, smallest in this group
`DeepSeek-V4-Pro`	1.6T total / 49B active	864.70GB	Inference model, stronger but enormous
`DeepSeek-V4-Flash-Base`	284B total	294.67GB	Base model, closer to full FP8 weight size
`DeepSeek-V4-Pro-Base`	1.6T total	1606.03GB	Base model, about 1.6TB

Incluso el V4-Flash más pequeño se acerca a 160GB de pesos oficiales. No debe tratarse como un 13B solo por tener 13B active params.

Estimación de VRAM para DeepSeek V4 Flash

V4-Flash es la variante más abordable para experimentos locales, pero sigue sin ser un modelo de una sola GPU de consumo.

Version / Quantization	Estimated Weight Size	Minimum VRAM	Safer VRAM	Best For
`FP8 / official weights`	159.61GB	192GB	256GB	Multi-GPU servers, inference service
`Q6`	120GB	160GB	192GB	Quality-first quantization tests
`Q5`	100GB	128GB	160GB	Quality/size balance
`Q4`	80GB	96GB	128GB	More realistic starting point for Flash
`Q3`	60GB	80GB	96GB	Large-VRAM single GPU or multi-GPU tests
`Q2`	40GB	48GB	64GB	Extreme low-bit experiments with clear quality risk

Si aparecen builds maduros de V4-Flash Q4, probablemente seguirán sin ser modelos para 24GB. El punto de partida realista es 96GB a 128GB de VRAM total, o setups con offload que sacrifican velocidad por capacidad.

Estimación de VRAM para DeepSeek V4 Pro

V4-Pro es el modelo de inferencia insignia, con unos 864.70GB de pesos oficiales.

Version / Quantization	Estimated Weight Size	Minimum VRAM	Safer VRAM	Best For
`FP8 / official weights`	864.70GB	1TB	1.2TB+	Multi-node or multi-GPU inference service
`Q6`	648GB	768GB	1TB	High-quality quantized service
`Q5`	540GB	640GB	768GB	Quality/cost balance
`Q4`	432GB	512GB	640GB	Lowest practical quality line for Pro
`Q3`	324GB	384GB	512GB	Low-bit experiments
`Q2`	216GB	256GB	320GB	Extreme experiments with high risk

Para usuarios individuales, V4-Pro se consume mejor por API. Para despliegue local completo, trátalo como modelo de servidor multi-GPU.

Estimación de VRAM para Flash-Base y Pro-Base

Los modelos Base suelen ser para investigación, fine-tuning o entrenamiento continuo, no para chat común.

V4-Flash-Base pesa unos 294.67GB:

Version / Quantization	Estimated Weight Size	Minimum VRAM	Safer VRAM	Best For
`FP8 / official weights`	294.67GB	384GB	512GB	Research, preprocessing, evaluation
`Q6`	221GB	256GB	320GB	High-quality quantization research
`Q5`	184GB	224GB	256GB	Quality/size balance
`Q4`	147GB	192GB	224GB	Lower-cost Base experiments
`Q3`	111GB	128GB	160GB	Low-bit experiments
`Q2`	74GB	96GB	128GB	Extreme experiments

V4-Pro-Base pesa unos 1606.03GB:

Version / Quantization	Estimated Weight Size	Minimum VRAM	Safer VRAM	Best For
`FP8 / official weights`	1606.03GB	2TB	2.4TB+	Large-scale research clusters
`Q6`	1205GB	1.5TB	2TB	High-quality quantization research
`Q5`	1004GB	1.2TB	1.5TB	Research and evaluation
`Q4`	803GB	1TB	1.2TB	Low-bit research
`Q3`	602GB	768GB	1TB	Extreme low-bit research
`Q2`	402GB	512GB	640GB	Extreme experiments

Este tipo de modelo no debe evaluarse con la pregunta “¿lo corre una GPU doméstica?”. Incluso Q4 queda fuera de la comodidad de la mayoría de estaciones.

Por qué active params no basta

MoE activa solo parte de los expertos por token, por eso el cómputo puede ser mucho menor que el total de parámetros. Pero eso no significa que la VRAM solo tenga que cargar los parámetros activos.

El despliegue local completo depende de:

si todos los expertos deben residir en GPU;
si hay carga bajo demanda de expertos;
coste de transferencia CPU-GPU;
latencia de offload a NVMe;
crecimiento de KV cache con contexto largo;
sobrecarga de runtime en contexto muy largo;
coste de comunicación multi-GPU o multinodo.

V4-Pro con 49B active no se despliega como un 49B. V4-Flash con 13B active tampoco debe tratarse como un 13B pequeño.

Cómo elegir

Si eres usuario individual:

no intentes alojar DeepSeek V4 completo;
usa la API oficial cuando necesites sus capacidades;
para despliegue privado, revisa primero tu infraestructura multi-GPU;
con 24GB a 48GB, los modelos cuantizados 7B, 14B, 32B o 70B son más prácticos.

Con 128GB a 256GB de VRAM total, observa implementaciones estables de V4-Flash Q4/Q5. Con 512GB+, V4-Pro Q4 empieza a ser un objetivo de validación de ingeniería.

La pregunta clave no es “qué archivo cuantizado descargo”, sino “si tengo capacidad de inferencia de sistema para este modelo”.

Referencias

Ejecutar Gemma 4 en local: requisitos de VRAM para modelos cuantizados E2B, E4B, 26B y 31B

Fri, 01 May 2026 11:42:34 +0800

Gemma 4 tiene cuatro tamaños principales para despliegue local: E2B, E4B, 26B A4B y 31B. E2B y E4B apuntan a dispositivos ligeros y edge, 26B A4B usa arquitectura MoE, y 31B es el modelo denso más grande.

El error más común al hacer inferencia local es confundir dos números:

Tamaño del archivo GGUF: cuánto ocupa el archivo de pesos.
Uso real de VRAM: depende de pesos, KV cache, sobrecarga del runtime, longitud de contexto y módulos multimodales.

Las tablas siguientes estiman VRAM a partir del tamaño GGUF. La suposición base es inferencia local de texto con llama.cpp, LM Studio, Ollama o runtimes similares, usando contexto corto o medio. Para contexto largo, entrada de imagen/audio o concurrencia, deja más margen.

Resumen rápido

VRAM	Buena opción	Evitar
4GB	Cuantizaciones E2B de bajo bit	E4B y superiores
6GB	E2B Q4/Q5, E4B de bajo bit	26B, 31B
8GB	E2B Q8, E4B Q4/Q5	26B Q4, 31B Q4
12GB	E4B Q8, pruebas 26B/31B de 2-3 bits	26B Q4 con contexto largo
16GB	26B y 31B de bajo bit	31B Q4 con contexto largo
24GB	26B Q4/Q5, 31B Q4	31B Q8, BF16
32GB	26B Q6/Q8, 31B Q5/Q6	BF16
48GB	31B Q8 más cómodo	31B BF16
80GB+	26B/31B BF16	GPU de consumo única

Para algo usable en local, empieza con E4B Q4_K_M o E2B Q4_K_M. Con 24GB de VRAM, 26B A4B Q4_K_M y 31B Q4_K_M empiezan a ser opciones realistas.

Tabla de VRAM de Gemma 4 E2B

E2B es la versión más ligera, adecuada para portátiles, mini PC, móviles y pruebas con poca VRAM.

Quantization	GGUF File Size	Minimum VRAM	Safer VRAM	Best For
`UD-IQ2_M`	2.29GB	4GB	6GB	Extreme low-VRAM tests
`UD-Q2_K_XL`	2.40GB	4GB	6GB	Low-VRAM usability
`Q3_K_M`	2.54GB	4GB	6GB	Lightweight chat and summaries
`IQ4_XS`	2.98GB	6GB	8GB	Balance of quality and size
`Q4_K_M`	3.11GB	6GB	8GB	Recommended E2B default
`Q5_K_M`	3.36GB	6GB	8GB	Slightly steadier than Q4
`Q6_K`	4.50GB	8GB	10GB	Higher-quality small model
`Q8_0`	5.05GB	8GB	10GB	Near-original precision
`BF16`	9.31GB	12GB	16GB	Debugging, comparison, research

Para uso diario, E2B Q4_K_M suele bastar. Con solo 4GB de VRAM, variantes de 2 o 3 bits pueden arrancar, pero la calidad será menos estable.

Tabla de VRAM de Gemma 4 E4B

E4B es el modelo ligero más práctico. Sirve mejor para escritura diaria, resúmenes, ayuda ligera de código y asistentes locales.

Quantization	GGUF File Size	Minimum VRAM	Safer VRAM	Best For
`UD-IQ2_M`	3.53GB	6GB	8GB	Low-VRAM tests
`UD-Q2_K_XL`	3.74GB	6GB	8GB	Low-VRAM usability
`Q3_K_M`	4.06GB	6GB	10GB	Lightweight local assistant
`IQ4_XS`	4.72GB	8GB	12GB	Balance of quality and speed
`Q4_K_M`	4.98GB	8GB	12GB	Recommended E4B default
`Q5_K_M`	5.48GB	8GB	12GB	Steadier everyday use
`Q6_K`	7.07GB	10GB	16GB	Quality first
`Q8_0`	8.19GB	12GB	16GB	Near-original precision
`BF16`	15.05GB	20GB	24GB	Research, evaluation, precision comparison

Con 8GB de VRAM, E4B Q4_K_M es un punto de partida realista. Con 12GB o 16GB, E4B Q8_0 también merece consideración.

Tabla de VRAM de Gemma 4 26B A4B

26B A4B es la versión MoE. Tiene más parámetros totales, pero activa solo parte de los expertos por paso de inferencia. Es más adecuada para preguntas complejas, código, uso de herramientas y agentes.

Quantization	GGUF File Size	Minimum VRAM	Safer VRAM	Best For
`UD-IQ2_M`	9.97GB	14GB	16GB	Extreme 16GB GPU tests
`UD-Q2_K_XL`	10.55GB	14GB	16GB	Running 26B with low VRAM
`UD-Q3_K_M`	12.53GB	16GB	20GB	Better quality while still VRAM-conscious
`UD-IQ4_XS`	13.42GB	16GB	24GB	Balance of quality and size
`UD-Q4_K_M`	16.87GB	20GB	24GB	Recommended 26B default
`UD-Q5_K_M`	21.15GB	24GB	32GB	Higher-quality quantization
`UD-Q6_K`	23.17GB	28GB	32GB	Quality first
`Q8_0`	26.86GB	32GB	40GB	Near-original precision
`BF16`	50.51GB	64GB	80GB	Not realistic for most single consumer GPUs

24GB de VRAM es la línea cómoda para 26B A4B. Una GPU de 16GB puede probar versiones de bajo bit, pero conviene mantener contexto y concurrencia moderados.

Tabla de VRAM de Gemma 4 31B

31B es el modelo denso más grande. Tiene más capacidad general, pero la presión de VRAM es directa.

Quantization	GGUF File Size	Minimum VRAM	Safer VRAM	Best For
`UD-IQ2_XXS`	8.53GB	12GB	16GB	Extreme low-VRAM tests with clear quality loss
`UD-IQ2_M`	10.75GB	14GB	18GB	Low-VRAM tests
`UD-Q2_K_XL`	11.77GB	16GB	20GB	16GB GPU experiments
`Q3_K_S`	13.21GB	16GB	24GB	More VRAM-efficient 3-bit
`Q3_K_M`	14.74GB	20GB	24GB	Common 3-bit compromise
`IQ4_XS`	16.37GB	20GB	24GB	Near-Q4 compromise
`Q4_K_M`	18.32GB	24GB	32GB	Recommended 31B default
`Q5_K_M`	21.66GB	28GB	32GB	Higher-quality quantization
`Q6_K`	25.20GB	32GB	40GB	Quality first
`Q8_0`	32.64GB	40GB	48GB	Near-original precision
`BF16`	61.41GB	80GB	96GB	Server or large-VRAM workstation

Se puede probar 31B de bajo bit en 16GB, pero para uso diario 24GB es mejor. Q4_K_M es el equilibrio; Q5_K_M y superiores tienen más sentido con 32GB+.

Por qué el uso real supera el tamaño del archivo

El tamaño GGUF solo representa los pesos. En ejecución también cuentan:

KV cache: más contexto implica más memoria.
Batch y concurrencia: más tokens o usuarios consumen más VRAM.
Componentes multimodales: imagen, audio o vídeo añaden módulos como mmproj.
Backend: CUDA, Metal, ROCm y split CPU/GPU no consumen igual.
Cuantización de KV cache: q8_0, q4_0 y modos similares ahorran VRAM, con posibles efectos en detalle.

La columna de VRAM mínima debe leerse como umbral para arrancar e inferir con contexto corto. Para 32K, 64K, 128K o 256K, los requisitos suben bastante.

Cómo elegir

4GB a 6GB: E2B Q3_K_M o E2B Q4_K_M.
8GB: E4B Q4_K_M; E2B Q8_0 también va bien.
12GB: E4B Q8_0, o pruebas de bajo bit de 26B/31B.
16GB: 26B A4B UD-Q3_K_M o 31B Q3_K_S, sin esperar contexto largo cómodo.
24GB: 26B A4B UD-Q4_K_M y 31B Q4_K_M.
32GB+: considerar Q5_K_M, Q6_K o más contexto.

La mayoría de usuarios no necesita BF16. El despliegue local consiste en equilibrar VRAM, velocidad, contexto y calidad, no en elegir el archivo más grande.