llama.cpp 如何從 Hugging Face 取得 GGUF 模型

簡要說明 llama.cpp 如何直接從 Hugging Face 下載 GGUF 模型、切換相容端點,以及在非 GGUF 格式下的轉換方式。

llama.cpp 可以直接搭配 Hugging Face 上的 GGUF 模型使用,不一定要先手動把檔案下載到本機。

如果模型倉庫本身已經提供 GGUF 檔案,可以直接在命令列中使用 -hf 參數,例如:

1
llama-cli -hf ggml-org/gemma-3-1b-it-GGUF

預設情況下,這個參數會從 Hugging Face 下載模型。
如果你使用的是其他相容 Hugging Face API 的模型託管服務,也可以透過環境變數 MODEL_ENDPOINT 切換下載端點。

需要注意的是,llama.cpp 只能直接使用 GGUF 格式。
如果拿到的是其他格式的模型檔案,就需要先用倉庫中的 convert_*.py 腳本轉換成 GGUF

Hugging Face 也提供了一些和 llama.cpp 相關的線上工具,常見用途包括:

  • 把模型轉換為 GGUF
  • 對模型做量化,縮小體積
  • 轉換 LoRA 適配器
  • 在線編輯 GGUF 中繼資料
  • 直接託管 llama.cpp 推理服務

如果只想記住一個最實用的結論:優先找已經提供 GGUF 的模型倉庫,然後直接用 llama-cli -hf <user>/<model>,通常是最省事的做法。

记录并分享
使用 Hugo 建立
主題 StackJimmy 設計