Ollama 雲模型是什麼，怎麼用

Thu, 09 Apr 2026 18:42:32 +0800

如果你平時用 Ollama 跑本地模型，應該很容易理解雲模型。

區別只有一個核心點：
本地模型是在你的電腦上推理，雲模型是在 Ollama 的雲端推理，再把結果回傳給你。

雲模型是什麼

Ollama 雲模型保留了 Ollama 的呼叫方式，但把計算位置從本地換到了雲端。

這樣做的好處是：

本地硬體壓力更小
更容易使用本地機器跑不動的大模型
仍然可以沿用熟悉的 Ollama 工作流

和本地模型的區別

對比項	本地模型	雲模型
運行位置	本機	雲端
硬體要求	高	低
延遲	更低	受網路影響
隱私性	更強	請求會發送到雲端

如果你更在意隱私、低延遲和離線使用，本地模型更適合。
如果你本地硬體不夠，但又想體驗更大的模型，雲模型更方便。

怎麼識別雲模型

目前 Ollama 的雲模型一般會帶 -cloud 後綴，例如：

`1`	`gpt-oss:120b-cloud`

可用模型列表可能會變化，實際以 Ollama 官方頁面為準。

怎麼用

先登入：

`1`	`ollama signin`

登入完成後，直接運行雲模型：

`1`	`ollama run gpt-oss:120b-cloud`

如果你是在程式裡呼叫，也可以配置 API Key：

`1`	`export OLLAMA_API_KEY=your_api_key`

Python 示例：

import os
from ollama import Client

client = Client(
    host="https://ollama.com",
    headers={"Authorization": "Bearer " + os.environ["OLLAMA_API_KEY"]},
)

messages = [
    {"role": "user", "content": "為什麼天空是藍色的？"}
]

for part in client.chat("gpt-oss:120b-cloud", messages=messages, stream=True):
    print(part["message"]["content"], end="", flush=True)

小結

Ollama 雲模型可以理解成一句話：

命令基本沒變，只是模型不在你本地跑了。

如果你的電腦帶不動大模型，但你又想繼續用 Ollama 的方式呼叫模型，雲模型就是一個很直接的方案。

從 Hugging Face 下載 GGUF 模型並匯入 Ollama

Thu, 09 Apr 2026 11:00:07 +0800

如果某個模型在 Ollama 官方庫裡沒有現成版本，或你想使用 Hugging Face 上的特定 GGUF 檔案，就可以先手動下載，再匯入到 Ollama。

第 1 步：從 Hugging Face 下載 GGUF 檔案

先到 Hugging Face 找到目標模型對應的 GGUF 檔案。通常你會看到多個量化版本，例如：

Q4_K_M
Q5_K_M
Q8_0

要選哪個版本，取決於你的 VRAM、RAM，以及你對速度與品質的取捨。下載後請把 .gguf 檔案放在固定目錄，後續才能在 Modelfile 中直接引用。

第 2 步：撰寫 Modelfile

在模型檔案所在目錄建立一個 Modelfile。最基本的寫法如下：

`1`	`FROM ./model.gguf`

如果檔名不同，請改成實際檔名，例如：

`1`	`FROM ./gemma-3-12b-it-q4_k_m.gguf`

如果你只是先讓模型跑起來，通常這一行 FROM 就夠了。

第 3 步：匯入到 Ollama

接著執行：

`1`	`ollama create myModelName -f Modelfile`

myModelName 是你想在 Ollama 內使用的本地模型名稱
-f Modelfile 表示用這個設定檔建立模型

建立成功後，這個 GGUF 檔案就會成為可直接呼叫的本地模型。

第 4 步：執行模型

建立完成後直接執行：

`1`	`ollama run myModelName`

之後它的使用方式就和用 ollama pull 拉下來的模型差不多。

如何查看現有模型的 Modelfile

如果你不確定 Modelfile 要怎麼寫，可以直接查看現有模型的設定：

`1`	`ollama show --modelfile llama3.2`

這個命令會輸出 llama3.2 的 Modelfile，很適合作為參考：

FROM 該怎麼寫
模板與 system prompt 如何組織
參數如何宣告

什麼時候適合用這條路線

以下情境很適合用 Hugging Face 手動匯入流程：

Ollama 官方庫裡還沒有你要的模型
你想使用特定的量化版本
你已經手動下載好 GGUF 檔案
你希望更細緻地控制模型封裝方式

如果 Ollama 官方庫已經有現成版本，直接 pull 通常更省事；但當你需要特定量化或自訂封裝時，GGUF + Modelfile 會更有彈性。

常見注意事項

FROM 後面的路徑必須和實際 .gguf 檔案位置一致。
如果檔名包含空格或特殊字元，建議先改成較簡單的名稱。
不同 GGUF 量化版本對記憶體與速度影響很大，匯入成功不代表執行一定順暢。
若模型是聊天模型，後續通常仍需依其格式調整 prompt 模板，效果才會更穩定。

結論

從 Hugging Face 下載 GGUF 檔案再匯入 Ollama 並不複雜。準備好模型檔案、寫一個最小可用的 Modelfile，再執行 ollama create，就能把第三方 GGUF 模型接入 Ollama 工作流。

模型部署 on KnightLi的博客