El objetivo principal de la cuantificación es simple: intercambiar una pequeña cantidad de precisión por un tamaño de modelo más pequeño, un menor uso de VRAM y una inferencia más rápida.
Para la implementación local, elegir el formato de cuantificación correcto suele ser más importante que buscar un recuento de parámetros mayor.
¿Qué es la cuantización?
La cuantización significa comprimir los parámetros del modelo desde formatos de mayor precisión (como “FP16”) a formatos de bits más bajos (como “Q8” y “Q4”).
Una analogía simple:
- Modelo original: como una foto de alta calidad, clara pero grande.
- Modelo cuantificado: como una foto comprimida, ligeramente menos detallada pero más ligera y rápida.
Formatos de cuantificación comunes
| Cuantización | Precisión/Ancho de broca | Tamaño | Pérdida de calidad | Uso recomendado |
|---|---|---|---|---|
| FP16 | flotante de 16 bits | Más grande | Casi ninguno | Investigación, evaluación, máxima calidad |
| Q8_0 | Entero de 8 bits | Más grande | Casi ninguno | PC de alta gama, calidad + rendimiento |
| Q5_K_M | 5 bits mixto | Medio | Ligero | Conductor diario, elección equilibrada |
| Q4_K_M | Mixto de 4 bits | Más pequeño | Aceptable | Valor predeterminado general, valor fuerte |
| Q3_K_M | Mezclado de 3 bits | Muy pequeño | Notable | Dispositivos de baja especificación, ejecutar primero |
| Q2_K | Mixto de 2 bits | Más pequeño | Significativo | Límites extremos de recursos, respaldo |
Reglas de denominación de cuantificación
Tome gemma-4:4b-q4_k_m como ejemplo:
gemma-4:4b: nombre del modelo y escala de parámetros.q4: cuantificación de 4 bits.k: K-quants (un método de cuantificación mejorado).m: nivel medio (las opciones comunes también incluyens/small yl/large).
Selección rápida por VRAM
| RAM/VRAM | Cuantización recomendada |
|---|---|
| 4 GB | Q3_K_M / Q2_K |
| 8 GB | Q4_K_M |
| 16 GB | Q5_K_M / Q8_0 |
| 32GB+ | FP16 / T8_0 |
Comience con una versión que se ejecute de manera estable en su máquina, luego avance con precisión paso a paso en lugar de saltar directamente al modelo más grande.
Consejos prácticos
- Comience con
Q4_K_Mde forma predeterminada y pruebe primero las tareas reales. - Si la calidad de la respuesta no es suficiente, suba a
Q5_K_MoQ8_0. - Si la VRAM o la velocidad son el principal cuello de botella, baje a
Q3_K_M. - Utilice el mismo conjunto de prueba cada vez que cambie de formato de cuantificación.
Conclusión
- Calidad primero:
FP16oQ8_0. - Saldo primero:
Q5_K_M. - Valor predeterminado general:
Q4_K_M. - Reserva de baja especificación:
Q3_K_MoQ2_K.
La clave no es “cuanto más grande, mejor”, sino “el resultado más estable y utilizable bajo los límites de su hardware”.
Publicaciones relacionadas
- Comparación y selección de modelos Gemma 4
- Desinstalar completamente Ollama en Linux
- Ruta de almacenamiento y migración del modelo Ollama
- Cómo comprobar si Ollama usa GPU