llama.cpp 可以直接配合 Hugging Face 上的 GGUF 模型使用,不一定要先手动把文件下载到本地。
如果模型仓库本身已经提供了 GGUF 文件,可以直接在命令行里使用 -hf 参数,例如:
|
|
默认情况下,这个参数会从 Hugging Face 下载模型。
如果你使用的是其他兼容 Hugging Face API 的模型托管服务,也可以通过环境变量 MODEL_ENDPOINT 切换下载端点。
需要注意的是,llama.cpp 只能直接使用 GGUF 格式。
如果拿到的是其他格式的模型文件,就需要先用仓库里的 convert_*.py 脚本转换成 GGUF。
Hugging Face 还提供了一些和 llama.cpp 相关的在线工具,常见用途包括:
- 把模型转换为
GGUF - 对模型做量化,减小体积
- 转换 LoRA 适配器
- 在线编辑 GGUF 元数据
- 直接托管
llama.cpp推理服务
如果只想记住一个最实用的结论:优先找已经提供 GGUF 的模型仓库,然后直接用 llama-cli -hf <user>/<model>,通常是最省事的做法。