Cómo obtener modelos GGUF desde Hugging Face con llama.cpp

llama.cpp puede trabajar directamente con modelos GGUF alojados en Hugging Face, así que no siempre necesitas descargar manualmente los archivos del modelo primero.

Si un repositorio de modelo ya ofrece archivos GGUF, puedes usar el argumento -hf en la CLI, por ejemplo:

1

llama-cli -hf ggml-org/gemma-3-1b-it-GGUF

De forma predeterminada, esto descarga desde Hugging Face.
Si usas otro servicio que expone una API compatible con Hugging Face, puedes cambiar el endpoint de descarga con la variable de entorno MODEL_ENDPOINT.

Un detalle importante es que llama.cpp solo puede usar directamente el formato GGUF.
Si tu modelo está en otro formato, primero necesitas convertirlo con los scripts convert_*.py incluidos en el repositorio.

Hugging Face también ofrece varias herramientas online relacionadas con llama.cpp, entre ellas:

convertir modelos a GGUF
cuantizar pesos para reducir tamaño
convertir adaptadores LoRA
editar metadatos GGUF en el navegador
alojar endpoints de inferencia llama.cpp

Si solo quieres la conclusión práctica, empieza por repositorios que ya ofrezcan GGUF y luego usa llama-cli -hf <user>/<model>. En la mayoría de casos, ese es el camino más simple.