🍥

KnightLi的博客

记录并分享日常

AI工具

Gemma 4 本地調用指南：從一鍵啟動到開發整合

整理 Gemma 4 的本地主流調用方式，涵蓋 Ollama、LM Studio、llama.cpp 與開發者整合路徑。

如果你想在本地調用 Gemma 4，可以依需求從以下四種主流方案中選擇。

1) 最快上手：Ollama（推薦）

這是門檻最低的方式，適合快速測試、日常對話與本地 API 調用。

1

ollama run gemma4

特點：

支援 Win/Mac/Linux
自動處理硬體加速
提供相容 OpenAI 風格的本地 API

2) 圖形介面：LM Studio / Unsloth Studio

如果你偏好桌面 GUI（像 ChatGPT）：

LM Studio：可直接搜尋與下載 Hugging Face 上的 Gemma 4 量化模型（如 4-bit、8-bit），並查看資源占用。
Unsloth Studio：除推理外，也支援低顯存微調；對 6GB-8GB 顯存更友善。

3) 低配與深度控制：llama.cpp

適合舊機、純 CPU 場景，或希望細調推理參數的使用者。

你可以使用 .gguf 模型檔配合量化版本，在更低硬體門檻下運行 Gemma 4。

4) 開發者整合：Transformers / vLLM

如果你要把 Gemma 4 接進自己的應用：

Transformers：適合 Python 專案直接載入模型
vLLM：適合高效能 GPU 與高吞吐推理服務

快速選型

需求	推薦工具	硬體門檻
我只想先跑起來	Ollama	低（自動適配）
我想用圖形介面	LM Studio	中
顯存很吃緊（6GB-8GB）	Unsloth / llama.cpp	低
我要做本地 AI 應用開發	Ollama / Transformers / vLLM	中到高
我要做微調訓練	Unsloth Studio	中到高

模型尺寸建議

Gemma 4 有多種尺寸（如 E2B、E4B、31B）。

一般筆電建議先用量化後的 E2B / E4B
顯存充足後再嘗試更大版本