llama.cpp 如何從 Hugging Face 取得 GGUF 模型

llama.cpp 可以直接搭配 Hugging Face 上的 GGUF 模型使用，不一定要先手動把檔案下載到本機。

如果模型倉庫本身已經提供 GGUF 檔案，可以直接在命令列中使用 -hf 參數，例如：

1

llama-cli -hf ggml-org/gemma-3-1b-it-GGUF

預設情況下，這個參數會從 Hugging Face 下載模型。
如果你使用的是其他相容 Hugging Face API 的模型託管服務，也可以透過環境變數 MODEL_ENDPOINT 切換下載端點。

需要注意的是，llama.cpp 只能直接使用 GGUF 格式。
如果拿到的是其他格式的模型檔案，就需要先用倉庫中的 convert_*.py 腳本轉換成 GGUF。

Hugging Face 也提供了一些和 llama.cpp 相關的線上工具，常見用途包括：

如果只想記住一個最實用的結論：優先找已經提供 GGUF 的模型倉庫，然後直接用 llama-cli -hf <user>/<model>，通常是最省事的做法。