Ejecutar Gemma 4 en local: requisitos de VRAM para modelos cuantizados E2B, E4B, 26B y 31B

Tabla práctica de VRAM para Gemma 4 E2B, E4B, 26B A4B y 31B en niveles comunes de cuantización GGUF, con tamaño de archivo, VRAM mínima y margen recomendado.

Gemma 4 tiene cuatro tamaños principales para despliegue local: E2B, E4B, 26B A4B y 31B. E2B y E4B apuntan a dispositivos ligeros y edge, 26B A4B usa arquitectura MoE, y 31B es el modelo denso más grande.

El error más común al hacer inferencia local es confundir dos números:

  • Tamaño del archivo GGUF: cuánto ocupa el archivo de pesos.
  • Uso real de VRAM: depende de pesos, KV cache, sobrecarga del runtime, longitud de contexto y módulos multimodales.

Las tablas siguientes estiman VRAM a partir del tamaño GGUF. La suposición base es inferencia local de texto con llama.cpp, LM Studio, Ollama o runtimes similares, usando contexto corto o medio. Para contexto largo, entrada de imagen/audio o concurrencia, deja más margen.

Resumen rápido

VRAM Buena opción Evitar
4GB Cuantizaciones E2B de bajo bit E4B y superiores
6GB E2B Q4/Q5, E4B de bajo bit 26B, 31B
8GB E2B Q8, E4B Q4/Q5 26B Q4, 31B Q4
12GB E4B Q8, pruebas 26B/31B de 2-3 bits 26B Q4 con contexto largo
16GB 26B y 31B de bajo bit 31B Q4 con contexto largo
24GB 26B Q4/Q5, 31B Q4 31B Q8, BF16
32GB 26B Q6/Q8, 31B Q5/Q6 BF16
48GB 31B Q8 más cómodo 31B BF16
80GB+ 26B/31B BF16 GPU de consumo única

Para algo usable en local, empieza con E4B Q4_K_M o E2B Q4_K_M. Con 24GB de VRAM, 26B A4B Q4_K_M y 31B Q4_K_M empiezan a ser opciones realistas.

Tabla de VRAM de Gemma 4 E2B

E2B es la versión más ligera, adecuada para portátiles, mini PC, móviles y pruebas con poca VRAM.

Quantization GGUF File Size Minimum VRAM Safer VRAM Best For
UD-IQ2_M 2.29GB 4GB 6GB Extreme low-VRAM tests
UD-Q2_K_XL 2.40GB 4GB 6GB Low-VRAM usability
Q3_K_M 2.54GB 4GB 6GB Lightweight chat and summaries
IQ4_XS 2.98GB 6GB 8GB Balance of quality and size
Q4_K_M 3.11GB 6GB 8GB Recommended E2B default
Q5_K_M 3.36GB 6GB 8GB Slightly steadier than Q4
Q6_K 4.50GB 8GB 10GB Higher-quality small model
Q8_0 5.05GB 8GB 10GB Near-original precision
BF16 9.31GB 12GB 16GB Debugging, comparison, research

Para uso diario, E2B Q4_K_M suele bastar. Con solo 4GB de VRAM, variantes de 2 o 3 bits pueden arrancar, pero la calidad será menos estable.

Tabla de VRAM de Gemma 4 E4B

E4B es el modelo ligero más práctico. Sirve mejor para escritura diaria, resúmenes, ayuda ligera de código y asistentes locales.

Quantization GGUF File Size Minimum VRAM Safer VRAM Best For
UD-IQ2_M 3.53GB 6GB 8GB Low-VRAM tests
UD-Q2_K_XL 3.74GB 6GB 8GB Low-VRAM usability
Q3_K_M 4.06GB 6GB 10GB Lightweight local assistant
IQ4_XS 4.72GB 8GB 12GB Balance of quality and speed
Q4_K_M 4.98GB 8GB 12GB Recommended E4B default
Q5_K_M 5.48GB 8GB 12GB Steadier everyday use
Q6_K 7.07GB 10GB 16GB Quality first
Q8_0 8.19GB 12GB 16GB Near-original precision
BF16 15.05GB 20GB 24GB Research, evaluation, precision comparison

Con 8GB de VRAM, E4B Q4_K_M es un punto de partida realista. Con 12GB o 16GB, E4B Q8_0 también merece consideración.

Tabla de VRAM de Gemma 4 26B A4B

26B A4B es la versión MoE. Tiene más parámetros totales, pero activa solo parte de los expertos por paso de inferencia. Es más adecuada para preguntas complejas, código, uso de herramientas y agentes.

Quantization GGUF File Size Minimum VRAM Safer VRAM Best For
UD-IQ2_M 9.97GB 14GB 16GB Extreme 16GB GPU tests
UD-Q2_K_XL 10.55GB 14GB 16GB Running 26B with low VRAM
UD-Q3_K_M 12.53GB 16GB 20GB Better quality while still VRAM-conscious
UD-IQ4_XS 13.42GB 16GB 24GB Balance of quality and size
UD-Q4_K_M 16.87GB 20GB 24GB Recommended 26B default
UD-Q5_K_M 21.15GB 24GB 32GB Higher-quality quantization
UD-Q6_K 23.17GB 28GB 32GB Quality first
Q8_0 26.86GB 32GB 40GB Near-original precision
BF16 50.51GB 64GB 80GB Not realistic for most single consumer GPUs

24GB de VRAM es la línea cómoda para 26B A4B. Una GPU de 16GB puede probar versiones de bajo bit, pero conviene mantener contexto y concurrencia moderados.

Tabla de VRAM de Gemma 4 31B

31B es el modelo denso más grande. Tiene más capacidad general, pero la presión de VRAM es directa.

Quantization GGUF File Size Minimum VRAM Safer VRAM Best For
UD-IQ2_XXS 8.53GB 12GB 16GB Extreme low-VRAM tests with clear quality loss
UD-IQ2_M 10.75GB 14GB 18GB Low-VRAM tests
UD-Q2_K_XL 11.77GB 16GB 20GB 16GB GPU experiments
Q3_K_S 13.21GB 16GB 24GB More VRAM-efficient 3-bit
Q3_K_M 14.74GB 20GB 24GB Common 3-bit compromise
IQ4_XS 16.37GB 20GB 24GB Near-Q4 compromise
Q4_K_M 18.32GB 24GB 32GB Recommended 31B default
Q5_K_M 21.66GB 28GB 32GB Higher-quality quantization
Q6_K 25.20GB 32GB 40GB Quality first
Q8_0 32.64GB 40GB 48GB Near-original precision
BF16 61.41GB 80GB 96GB Server or large-VRAM workstation

Se puede probar 31B de bajo bit en 16GB, pero para uso diario 24GB es mejor. Q4_K_M es el equilibrio; Q5_K_M y superiores tienen más sentido con 32GB+.

Por qué el uso real supera el tamaño del archivo

El tamaño GGUF solo representa los pesos. En ejecución también cuentan:

  • KV cache: más contexto implica más memoria.
  • Batch y concurrencia: más tokens o usuarios consumen más VRAM.
  • Componentes multimodales: imagen, audio o vídeo añaden módulos como mmproj.
  • Backend: CUDA, Metal, ROCm y split CPU/GPU no consumen igual.
  • Cuantización de KV cache: q8_0, q4_0 y modos similares ahorran VRAM, con posibles efectos en detalle.

La columna de VRAM mínima debe leerse como umbral para arrancar e inferir con contexto corto. Para 32K, 64K, 128K o 256K, los requisitos suben bastante.

Cómo elegir

  • 4GB a 6GB: E2B Q3_K_M o E2B Q4_K_M.
  • 8GB: E4B Q4_K_M; E2B Q8_0 también va bien.
  • 12GB: E4B Q8_0, o pruebas de bajo bit de 26B/31B.
  • 16GB: 26B A4B UD-Q3_K_M o 31B Q3_K_S, sin esperar contexto largo cómodo.
  • 24GB: 26B A4B UD-Q4_K_M y 31B Q4_K_M.
  • 32GB+: considerar Q5_K_M, Q6_K o más contexto.

La mayoría de usuarios no necesita BF16. El despliegue local consiste en equilibrar VRAM, velocidad, contexto y calidad, no en elegir el archivo más grande.

Referencias

记录并分享
Creado con Hugo
Tema Stack diseñado por Jimmy