Gemma 4 tiene cuatro tamaños principales para despliegue local: E2B, E4B, 26B A4B y 31B.
E2B y E4B apuntan a dispositivos ligeros y edge, 26B A4B usa arquitectura MoE, y 31B es el modelo denso más grande.
El error más común al hacer inferencia local es confundir dos números:
- Tamaño del archivo GGUF: cuánto ocupa el archivo de pesos.
- Uso real de VRAM: depende de pesos, KV cache, sobrecarga del runtime, longitud de contexto y módulos multimodales.
Las tablas siguientes estiman VRAM a partir del tamaño GGUF. La suposición base es inferencia local de texto con llama.cpp, LM Studio, Ollama o runtimes similares, usando contexto corto o medio. Para contexto largo, entrada de imagen/audio o concurrencia, deja más margen.
Resumen rápido
| VRAM | Buena opción | Evitar |
|---|---|---|
| 4GB | Cuantizaciones E2B de bajo bit | E4B y superiores |
| 6GB | E2B Q4/Q5, E4B de bajo bit | 26B, 31B |
| 8GB | E2B Q8, E4B Q4/Q5 | 26B Q4, 31B Q4 |
| 12GB | E4B Q8, pruebas 26B/31B de 2-3 bits | 26B Q4 con contexto largo |
| 16GB | 26B y 31B de bajo bit | 31B Q4 con contexto largo |
| 24GB | 26B Q4/Q5, 31B Q4 | 31B Q8, BF16 |
| 32GB | 26B Q6/Q8, 31B Q5/Q6 | BF16 |
| 48GB | 31B Q8 más cómodo | 31B BF16 |
| 80GB+ | 26B/31B BF16 | GPU de consumo única |
Para algo usable en local, empieza con E4B Q4_K_M o E2B Q4_K_M. Con 24GB de VRAM, 26B A4B Q4_K_M y 31B Q4_K_M empiezan a ser opciones realistas.
Tabla de VRAM de Gemma 4 E2B
E2B es la versión más ligera, adecuada para portátiles, mini PC, móviles y pruebas con poca VRAM.
| Quantization | GGUF File Size | Minimum VRAM | Safer VRAM | Best For |
|---|---|---|---|---|
UD-IQ2_M |
2.29GB | 4GB | 6GB | Extreme low-VRAM tests |
UD-Q2_K_XL |
2.40GB | 4GB | 6GB | Low-VRAM usability |
Q3_K_M |
2.54GB | 4GB | 6GB | Lightweight chat and summaries |
IQ4_XS |
2.98GB | 6GB | 8GB | Balance of quality and size |
Q4_K_M |
3.11GB | 6GB | 8GB | Recommended E2B default |
Q5_K_M |
3.36GB | 6GB | 8GB | Slightly steadier than Q4 |
Q6_K |
4.50GB | 8GB | 10GB | Higher-quality small model |
Q8_0 |
5.05GB | 8GB | 10GB | Near-original precision |
BF16 |
9.31GB | 12GB | 16GB | Debugging, comparison, research |
Para uso diario, E2B Q4_K_M suele bastar. Con solo 4GB de VRAM, variantes de 2 o 3 bits pueden arrancar, pero la calidad será menos estable.
Tabla de VRAM de Gemma 4 E4B
E4B es el modelo ligero más práctico. Sirve mejor para escritura diaria, resúmenes, ayuda ligera de código y asistentes locales.
| Quantization | GGUF File Size | Minimum VRAM | Safer VRAM | Best For |
|---|---|---|---|---|
UD-IQ2_M |
3.53GB | 6GB | 8GB | Low-VRAM tests |
UD-Q2_K_XL |
3.74GB | 6GB | 8GB | Low-VRAM usability |
Q3_K_M |
4.06GB | 6GB | 10GB | Lightweight local assistant |
IQ4_XS |
4.72GB | 8GB | 12GB | Balance of quality and speed |
Q4_K_M |
4.98GB | 8GB | 12GB | Recommended E4B default |
Q5_K_M |
5.48GB | 8GB | 12GB | Steadier everyday use |
Q6_K |
7.07GB | 10GB | 16GB | Quality first |
Q8_0 |
8.19GB | 12GB | 16GB | Near-original precision |
BF16 |
15.05GB | 20GB | 24GB | Research, evaluation, precision comparison |
Con 8GB de VRAM, E4B Q4_K_M es un punto de partida realista. Con 12GB o 16GB, E4B Q8_0 también merece consideración.
Tabla de VRAM de Gemma 4 26B A4B
26B A4B es la versión MoE. Tiene más parámetros totales, pero activa solo parte de los expertos por paso de inferencia. Es más adecuada para preguntas complejas, código, uso de herramientas y agentes.
| Quantization | GGUF File Size | Minimum VRAM | Safer VRAM | Best For |
|---|---|---|---|---|
UD-IQ2_M |
9.97GB | 14GB | 16GB | Extreme 16GB GPU tests |
UD-Q2_K_XL |
10.55GB | 14GB | 16GB | Running 26B with low VRAM |
UD-Q3_K_M |
12.53GB | 16GB | 20GB | Better quality while still VRAM-conscious |
UD-IQ4_XS |
13.42GB | 16GB | 24GB | Balance of quality and size |
UD-Q4_K_M |
16.87GB | 20GB | 24GB | Recommended 26B default |
UD-Q5_K_M |
21.15GB | 24GB | 32GB | Higher-quality quantization |
UD-Q6_K |
23.17GB | 28GB | 32GB | Quality first |
Q8_0 |
26.86GB | 32GB | 40GB | Near-original precision |
BF16 |
50.51GB | 64GB | 80GB | Not realistic for most single consumer GPUs |
24GB de VRAM es la línea cómoda para 26B A4B. Una GPU de 16GB puede probar versiones de bajo bit, pero conviene mantener contexto y concurrencia moderados.
Tabla de VRAM de Gemma 4 31B
31B es el modelo denso más grande. Tiene más capacidad general, pero la presión de VRAM es directa.
| Quantization | GGUF File Size | Minimum VRAM | Safer VRAM | Best For |
|---|---|---|---|---|
UD-IQ2_XXS |
8.53GB | 12GB | 16GB | Extreme low-VRAM tests with clear quality loss |
UD-IQ2_M |
10.75GB | 14GB | 18GB | Low-VRAM tests |
UD-Q2_K_XL |
11.77GB | 16GB | 20GB | 16GB GPU experiments |
Q3_K_S |
13.21GB | 16GB | 24GB | More VRAM-efficient 3-bit |
Q3_K_M |
14.74GB | 20GB | 24GB | Common 3-bit compromise |
IQ4_XS |
16.37GB | 20GB | 24GB | Near-Q4 compromise |
Q4_K_M |
18.32GB | 24GB | 32GB | Recommended 31B default |
Q5_K_M |
21.66GB | 28GB | 32GB | Higher-quality quantization |
Q6_K |
25.20GB | 32GB | 40GB | Quality first |
Q8_0 |
32.64GB | 40GB | 48GB | Near-original precision |
BF16 |
61.41GB | 80GB | 96GB | Server or large-VRAM workstation |
Se puede probar 31B de bajo bit en 16GB, pero para uso diario 24GB es mejor. Q4_K_M es el equilibrio; Q5_K_M y superiores tienen más sentido con 32GB+.
Por qué el uso real supera el tamaño del archivo
El tamaño GGUF solo representa los pesos. En ejecución también cuentan:
KV cache: más contexto implica más memoria.- Batch y concurrencia: más tokens o usuarios consumen más VRAM.
- Componentes multimodales: imagen, audio o vídeo añaden módulos como
mmproj. - Backend: CUDA, Metal, ROCm y split CPU/GPU no consumen igual.
- Cuantización de KV cache:
q8_0,q4_0y modos similares ahorran VRAM, con posibles efectos en detalle.
La columna de VRAM mínima debe leerse como umbral para arrancar e inferir con contexto corto. Para 32K, 64K, 128K o 256K, los requisitos suben bastante.
Cómo elegir
- 4GB a 6GB:
E2B Q3_K_MoE2B Q4_K_M. - 8GB:
E4B Q4_K_M;E2B Q8_0también va bien. - 12GB:
E4B Q8_0, o pruebas de bajo bit de 26B/31B. - 16GB:
26B A4B UD-Q3_K_Mo31B Q3_K_S, sin esperar contexto largo cómodo. - 24GB:
26B A4B UD-Q4_K_My31B Q4_K_M. - 32GB+: considerar
Q5_K_M,Q6_Ko más contexto.
La mayoría de usuarios no necesita BF16. El despliegue local consiste en equilibrar VRAM, velocidad, contexto y calidad, no en elegir el archivo más grande.