llama-quantize es la herramienta de cuantización de llama.cpp. Se usa para convertir modelos GGUF de alta precisión en versiones cuantizadas más pequeñas.
Su uso más común es convertir formatos como F32, BF16 o FP16 en versiones como Q4_K_M, Q5_K_M o Q8_0, que son más fáciles de ejecutar localmente. Después de la cuantización, los modelos suelen ser mucho más pequeños y a menudo más rápidos en inferencia, aunque se espera cierta pérdida de calidad.
Flujo básico
Un flujo típico consiste en preparar el modelo original, convertirlo a GGUF y luego ejecutar la cuantización.
|
|
Después, puedes ejecutar el modelo cuantizado con llama-cli:
|
|
Opciones comunes
--allow-requantize: permite volver a cuantizar un modelo ya cuantizado, algo que normalmente no es ideal para la calidad--leave-output-tensor: deja la capa de salida sin cuantizar; aumenta el tamaño, pero a veces ayuda a la calidad--pure: desactiva la cuantización mixta y usa un tipo de cuantización más uniforme--imatrix: usa una matriz de importancia para mejorar la calidad de cuantización--keep-split: conserva el diseño original por fragmentos en lugar de producir un único archivo combinado
Si solo quieres un punto de partida práctico, esto suele bastar:
|
|
Cómo elegir una cuantización
Puedes pensar en los niveles de cuantización como un compromiso entre tamaño, velocidad y calidad:
Q8_0: más grande, pero normalmente más seguro para la calidadQ6_K/Q5_K_M: opciones equilibradas habitualesQ4_K_M: valor predeterminado muy común, con buen equilibrio entre tamaño y calidadQ3/Q2: útiles cuando el hardware es muy limitado, pero la pérdida de calidad es más visible
El objetivo práctico normalmente no es elegir la cuantización más grande que quepa, sino la que se ejecute de forma fiable en tu hardware manteniendo una calidad aceptable.
Conclusión práctica
- empieza con
Q4_K_MoQ5_K_M - sube a
Q6_KoQ8_0si la calidad importa más - baja a
Q3oQ2si la memoria está ajustada - compara versiones con el mismo conjunto de prompts
En resumen, llama-quantize es útil porque hace que los modelos GGUF sean más fáciles de ejecutar en hardware local, no solo porque reduce el tamaño de los archivos.