llama.cpp 如何从 Hugging Face 获取 GGUF 模型

llama.cpp 可以直接配合 Hugging Face 上的 GGUF 模型使用，不一定要先手动把文件下载到本地。

如果模型仓库本身已经提供了 GGUF 文件，可以直接在命令行里使用 -hf 参数，例如：

1

llama-cli -hf ggml-org/gemma-3-1b-it-GGUF

默认情况下，这个参数会从 Hugging Face 下载模型。
如果你使用的是其他兼容 Hugging Face API 的模型托管服务，也可以通过环境变量 MODEL_ENDPOINT 切换下载端点。

需要注意的是，llama.cpp 只能直接使用 GGUF 格式。
如果拿到的是其他格式的模型文件，就需要先用仓库里的 convert_*.py 脚本转换成 GGUF。

Hugging Face 还提供了一些和 llama.cpp 相关的在线工具，常见用途包括：

如果只想记住一个最实用的结论：优先找已经提供 GGUF 的模型仓库，然后直接用 llama-cli -hf <user>/<model>，通常是最省事的做法。