Ollama 云模型是什么，怎么用

如果你平时用 Ollama 跑本地模型，应该很容易理解云模型。

区别只有一个核心点：
本地模型是在你的电脑上推理，云模型是在 Ollama 的云端推理，再把结果返回给你。

云模型是什么

Ollama 云模型保留了 Ollama 的调用方式，但把计算位置从本地换到了云端。

这样做的好处是：

本地硬件压力更小
更容易使用本地机器跑不动的大模型
仍然可以沿用熟悉的 Ollama 工作流

和本地模型的区别

对比项	本地模型	云模型
运行位置	本机	云端
硬件要求	高	低
延迟	更低	受网络影响
隐私性	更强	请求会发送到云端

如果你更在意隐私、低延迟和离线使用，本地模型更合适。
如果你本地硬件不够，但又想体验更大的模型，云模型更方便。

怎么识别云模型

当前 Ollama 的云模型一般会带 -cloud 后缀，例如：

1

gpt-oss:120b-cloud

可用模型列表可能会变化，实际以 Ollama 官方页面为准。

怎么用

先登录：

1

ollama signin

登录完成后，直接运行云模型：

1

ollama run gpt-oss:120b-cloud

如果你是在代码里调用，也可以配置 API Key：

1

export OLLAMA_API_KEY=your_api_key

Python 示例：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14


import os
from ollama import Client

client = Client(
    host="https://ollama.com",
    headers={"Authorization": "Bearer " + os.environ["OLLAMA_API_KEY"]},
)

messages = [
    {"role": "user", "content": "为什么天空是蓝色的？"}
]

for part in client.chat("gpt-oss:120b-cloud", messages=messages, stream=True):
    print(part["message"]["content"], end="", flush=True)

小结

Ollama 云模型可以理解成一句话：

命令基本没变，只是模型不在你本地跑了。

如果你的电脑带不动大模型，但你又想继续用 Ollama 的方式调用模型，云模型就是一个很直接的方案。