llama.cpp 如何从 Hugging Face 获取 GGUF 模型

简要说明 llama.cpp 如何直接从 Hugging Face 下载 GGUF 模型、切换兼容端点,以及在非 GGUF 格式下的转换方式。

llama.cpp 可以直接配合 Hugging Face 上的 GGUF 模型使用,不一定要先手动把文件下载到本地。

如果模型仓库本身已经提供了 GGUF 文件,可以直接在命令行里使用 -hf 参数,例如:

1
llama-cli -hf ggml-org/gemma-3-1b-it-GGUF

默认情况下,这个参数会从 Hugging Face 下载模型。
如果你使用的是其他兼容 Hugging Face API 的模型托管服务,也可以通过环境变量 MODEL_ENDPOINT 切换下载端点。

需要注意的是,llama.cpp 只能直接使用 GGUF 格式。
如果拿到的是其他格式的模型文件,就需要先用仓库里的 convert_*.py 脚本转换成 GGUF

Hugging Face 还提供了一些和 llama.cpp 相关的在线工具,常见用途包括:

  • 把模型转换为 GGUF
  • 对模型做量化,减小体积
  • 转换 LoRA 适配器
  • 在线编辑 GGUF 元数据
  • 直接托管 llama.cpp 推理服务

如果只想记住一个最实用的结论:优先找已经提供 GGUF 的模型仓库,然后直接用 llama-cli -hf <user>/<model>,通常是最省事的做法。

记录并分享
使用 Hugo 构建
主题 StackJimmy 设计