Al elegir un modelo Llama GGUF en Hugging Face, puedes pensar en los niveles de cuantización como si fueran resolución: los niveles más bajos usan menos VRAM/RAM, pero la calidad cae gradualmente.
Entiende primero 32, 16 y los niveles Q
32: lo más cercano a la calidad original o sin comprimir, pero con requisitos de hardware extremos.16: todavía muy cerca de la calidad original, con alrededor de la mitad del tamaño de32.Q8: punto de entrada común para modelos cuantizados, escrito normalmente comoQ8_0oQ8.Q6,Q5,Q4,Q3,Q2: cuanto menor es el número, menor es el uso de recursos y mayor el riesgo de pérdida de calidad.
Qué significa K_M / K_S
K_M y K_S son variantes de cuantización mixta:
- la mayoría de pesos se mantienen en el nivel de cuantización objetivo
- algunas partes importantes conservan mayor precisión
Por eso, al mismo nivel, Qx_K_M o Qx_K_S suele ser ligeramente mejor que Qx puro.
Estrategia práctica de selección
- Si el hardware lo permite, empieza con
Q8. - Si la memoria está justa, baja progresivamente a
Q6/Q5/Q4. - Intenta no bajar de
Q4;Q4_K_Mes un límite inferior habitual. - Por debajo de
Q4, la degradación de calidad se vuelve cada vez más visible.
Orden de calidad, de mejor a peor
3216
– Por encima de este punto, la calidad es prácticamente igual, pero los requisitos de hardware son extremos –
Q8Q6_K_MQ6_K_SQ6Q5_K_MQ5_K_SQ5
– Este es el punto dulce típico –
Q4_K_MQ4_K_SQ4
– Por debajo de este punto, la pérdida de calidad empieza a verse –
Q3_K_MQ3_K_SQ3Q2_K_MQ2_K_SQ2
Si quieres una regla corta: empieza con Q8 o Q6_K_M; baja a Q5 o Q4_K_M solo cuando sea necesario.