llama.cpp 可以直接搭配 Hugging Face 上的 GGUF 模型使用,不一定要先手動把檔案下載到本機。
如果模型倉庫本身已經提供 GGUF 檔案,可以直接在命令列中使用 -hf 參數,例如:
|
|
預設情況下,這個參數會從 Hugging Face 下載模型。
如果你使用的是其他相容 Hugging Face API 的模型託管服務,也可以透過環境變數 MODEL_ENDPOINT 切換下載端點。
需要注意的是,llama.cpp 只能直接使用 GGUF 格式。
如果拿到的是其他格式的模型檔案,就需要先用倉庫中的 convert_*.py 腳本轉換成 GGUF。
Hugging Face 也提供了一些和 llama.cpp 相關的線上工具,常見用途包括:
- 把模型轉換為
GGUF - 對模型做量化,縮小體積
- 轉換 LoRA 適配器
- 在線編輯 GGUF 中繼資料
- 直接託管
llama.cpp推理服務
如果只想記住一個最實用的結論:優先找已經提供 GGUF 的模型倉庫,然後直接用 llama-cli -hf <user>/<model>,通常是最省事的做法。