Cómo obtener modelos GGUF desde Hugging Face con llama.cpp

Una guía breve para descargar modelos GGUF con llama.cpp desde Hugging Face, cambiar endpoints compatibles y convertir formatos que no son GGUF.

llama.cpp puede trabajar directamente con modelos GGUF alojados en Hugging Face, así que no siempre necesitas descargar manualmente los archivos del modelo primero.

Si un repositorio de modelo ya ofrece archivos GGUF, puedes usar el argumento -hf en la CLI, por ejemplo:

1
llama-cli -hf ggml-org/gemma-3-1b-it-GGUF

De forma predeterminada, esto descarga desde Hugging Face.
Si usas otro servicio que expone una API compatible con Hugging Face, puedes cambiar el endpoint de descarga con la variable de entorno MODEL_ENDPOINT.

Un detalle importante es que llama.cpp solo puede usar directamente el formato GGUF.
Si tu modelo está en otro formato, primero necesitas convertirlo con los scripts convert_*.py incluidos en el repositorio.

Hugging Face también ofrece varias herramientas online relacionadas con llama.cpp, entre ellas:

  • convertir modelos a GGUF
  • cuantizar pesos para reducir tamaño
  • convertir adaptadores LoRA
  • editar metadatos GGUF en el navegador
  • alojar endpoints de inferencia llama.cpp

Si solo quieres la conclusión práctica, empieza por repositorios que ya ofrezcan GGUF y luego usa llama-cli -hf <user>/<model>. En la mayoría de casos, ese es el camino más simple.

记录并分享
Creado con Hugo
Tema Stack diseñado por Jimmy