llama.cpp puede trabajar directamente con modelos GGUF alojados en Hugging Face, así que no siempre necesitas descargar manualmente los archivos del modelo primero.
Si un repositorio de modelo ya ofrece archivos GGUF, puedes usar el argumento -hf en la CLI, por ejemplo:
|
|
De forma predeterminada, esto descarga desde Hugging Face.
Si usas otro servicio que expone una API compatible con Hugging Face, puedes cambiar el endpoint de descarga con la variable de entorno MODEL_ENDPOINT.
Un detalle importante es que llama.cpp solo puede usar directamente el formato GGUF.
Si tu modelo está en otro formato, primero necesitas convertirlo con los scripts convert_*.py incluidos en el repositorio.
Hugging Face también ofrece varias herramientas online relacionadas con llama.cpp, entre ellas:
- convertir modelos a
GGUF - cuantizar pesos para reducir tamaño
- convertir adaptadores LoRA
- editar metadatos GGUF en el navegador
- alojar endpoints de inferencia
llama.cpp
Si solo quieres la conclusión práctica, empieza por repositorios que ya ofrezcan GGUF y luego usa llama-cli -hf <user>/<model>. En la mayoría de casos, ese es el camino más simple.