Elegir cuantización GGUF de Llama en Hugging Face: consejos prácticos de Q8 a Q2

Al elegir un modelo Llama GGUF en Hugging Face, puedes pensar en los niveles de cuantización como si fueran resolución: los niveles más bajos usan menos VRAM/RAM, pero la calidad cae gradualmente.

Entiende primero 32, 16 y los niveles Q

32: lo más cercano a la calidad original o sin comprimir, pero con requisitos de hardware extremos.
16: todavía muy cerca de la calidad original, con alrededor de la mitad del tamaño de 32.
Q8: punto de entrada común para modelos cuantizados, escrito normalmente como Q8_0 o Q8.
Q6, Q5, Q4, Q3, Q2: cuanto menor es el número, menor es el uso de recursos y mayor el riesgo de pérdida de calidad.

Qué significa `K_M` / `K_S`

K_M y K_S son variantes de cuantización mixta:

la mayoría de pesos se mantienen en el nivel de cuantización objetivo
algunas partes importantes conservan mayor precisión

Por eso, al mismo nivel, Qx_K_M o Qx_K_S suele ser ligeramente mejor que Qx puro.

Estrategia práctica de selección

Si el hardware lo permite, empieza con Q8.
Si la memoria está justa, baja progresivamente a Q6 / Q5 / Q4.
Intenta no bajar de Q4; Q4_K_M es un límite inferior habitual.
Por debajo de Q4, la degradación de calidad se vuelve cada vez más visible.

Orden de calidad, de mejor a peor

32
16

– Por encima de este punto, la calidad es prácticamente igual, pero los requisitos de hardware son extremos –

Q8
Q6_K_M
Q6_K_S
Q6
Q5_K_M
Q5_K_S
Q5

– Este es el punto dulce típico –

Q4_K_M
Q4_K_S
Q4

– Por debajo de este punto, la pérdida de calidad empieza a verse –

Q3_K_M
Q3_K_S
Q3
Q2_K_M
Q2_K_S
Q2

Si quieres una regla corta: empieza con Q8 o Q6_K_M; baja a Q5 o Q4_K_M solo cuando sea necesario.

Entiende primero 32, 16 y los niveles Q

Qué significa K_M / K_S

Estrategia práctica de selección

Orden de calidad, de mejor a peor

Qué significa `K_M` / `K_S`