如果某個模型在 Ollama 官方庫裡沒有現成版本,或你想使用 Hugging Face 上的特定 GGUF 檔案,就可以先手動下載,再匯入到 Ollama。
第 1 步:從 Hugging Face 下載 GGUF 檔案
先到 Hugging Face 找到目標模型對應的 GGUF 檔案。通常你會看到多個量化版本,例如:
Q4_K_MQ5_K_MQ8_0
要選哪個版本,取決於你的 VRAM、RAM,以及你對速度與品質的取捨。下載後請把 .gguf 檔案放在固定目錄,後續才能在 Modelfile 中直接引用。
第 2 步:撰寫 Modelfile
在模型檔案所在目錄建立一個 Modelfile。最基本的寫法如下:
|
|
如果檔名不同,請改成實際檔名,例如:
|
|
如果你只是先讓模型跑起來,通常這一行 FROM 就夠了。
第 3 步:匯入到 Ollama
接著執行:
|
|
myModelName是你想在 Ollama 內使用的本地模型名稱-f Modelfile表示用這個設定檔建立模型
建立成功後,這個 GGUF 檔案就會成為可直接呼叫的本地模型。
第 4 步:執行模型
建立完成後直接執行:
|
|
之後它的使用方式就和用 ollama pull 拉下來的模型差不多。
如何查看現有模型的 Modelfile
如果你不確定 Modelfile 要怎麼寫,可以直接查看現有模型的設定:
|
|
這個命令會輸出 llama3.2 的 Modelfile,很適合作為參考:
FROM該怎麼寫- 模板與 system prompt 如何組織
- 參數如何宣告
什麼時候適合用這條路線
以下情境很適合用 Hugging Face 手動匯入流程:
- Ollama 官方庫裡還沒有你要的模型
- 你想使用特定的量化版本
- 你已經手動下載好
GGUF檔案 - 你希望更細緻地控制模型封裝方式
如果 Ollama 官方庫已經有現成版本,直接 pull 通常更省事;但當你需要特定量化或自訂封裝時,GGUF + Modelfile 會更有彈性。
常見注意事項
FROM後面的路徑必須和實際.gguf檔案位置一致。- 如果檔名包含空格或特殊字元,建議先改成較簡單的名稱。
- 不同
GGUF量化版本對記憶體與速度影響很大,匯入成功不代表執行一定順暢。 - 若模型是聊天模型,後續通常仍需依其格式調整 prompt 模板,效果才會更穩定。
結論
從 Hugging Face 下載 GGUF 檔案再匯入 Ollama 並不複雜。準備好模型檔案、寫一個最小可用的 Modelfile,再執行 ollama create,就能把第三方 GGUF 模型接入 Ollama 工作流。