Elegir cuantización GGUF de Llama en Hugging Face: consejos prácticos de Q8 a Q2

Una forma práctica de entender los niveles de cuantización GGUF y elegir entre Q8, Q6, Q5, Q4, Q3 y Q2 según los límites de hardware.

Al elegir un modelo Llama GGUF en Hugging Face, puedes pensar en los niveles de cuantización como si fueran resolución: los niveles más bajos usan menos VRAM/RAM, pero la calidad cae gradualmente.

Entiende primero 32, 16 y los niveles Q

  • 32: lo más cercano a la calidad original o sin comprimir, pero con requisitos de hardware extremos.
  • 16: todavía muy cerca de la calidad original, con alrededor de la mitad del tamaño de 32.
  • Q8: punto de entrada común para modelos cuantizados, escrito normalmente como Q8_0 o Q8.
  • Q6, Q5, Q4, Q3, Q2: cuanto menor es el número, menor es el uso de recursos y mayor el riesgo de pérdida de calidad.

Qué significa K_M / K_S

K_M y K_S son variantes de cuantización mixta:

  • la mayoría de pesos se mantienen en el nivel de cuantización objetivo
  • algunas partes importantes conservan mayor precisión

Por eso, al mismo nivel, Qx_K_M o Qx_K_S suele ser ligeramente mejor que Qx puro.

Estrategia práctica de selección

  • Si el hardware lo permite, empieza con Q8.
  • Si la memoria está justa, baja progresivamente a Q6 / Q5 / Q4.
  • Intenta no bajar de Q4; Q4_K_M es un límite inferior habitual.
  • Por debajo de Q4, la degradación de calidad se vuelve cada vez más visible.

Orden de calidad, de mejor a peor

  • 32
  • 16

– Por encima de este punto, la calidad es prácticamente igual, pero los requisitos de hardware son extremos –

  • Q8
  • Q6_K_M
  • Q6_K_S
  • Q6
  • Q5_K_M
  • Q5_K_S
  • Q5

– Este es el punto dulce típico –

  • Q4_K_M
  • Q4_K_S
  • Q4

– Por debajo de este punto, la pérdida de calidad empieza a verse –

  • Q3_K_M
  • Q3_K_S
  • Q3
  • Q2_K_M
  • Q2_K_S
  • Q2

Si quieres una regla corta: empieza con Q8 o Q6_K_M; baja a Q5 o Q4_K_M solo cuando sea necesario.

记录并分享
Creado con Hugo
Tema Stack diseñado por Jimmy