Gemma 4 本地調用指南:從一鍵啟動到開發整合

整理 Gemma 4 的本地主流調用方式,涵蓋 Ollama、LM Studio、llama.cpp 與開發者整合路徑。

如果你想在本地調用 Gemma 4,可以依需求從以下四種主流方案中選擇。

1) 最快上手:Ollama(推薦)

這是門檻最低的方式,適合快速測試、日常對話與本地 API 調用。

1
ollama run gemma4

特點:

  • 支援 Win/Mac/Linux
  • 自動處理硬體加速
  • 提供相容 OpenAI 風格的本地 API

2) 圖形介面:LM Studio / Unsloth Studio

如果你偏好桌面 GUI(像 ChatGPT):

  • LM Studio:可直接搜尋與下載 Hugging Face 上的 Gemma 4 量化模型(如 4-bit、8-bit),並查看資源占用。
  • Unsloth Studio:除推理外,也支援低顯存微調;對 6GB-8GB 顯存更友善。

3) 低配與深度控制:llama.cpp

適合舊機、純 CPU 場景,或希望細調推理參數的使用者。

你可以使用 .gguf 模型檔配合量化版本,在更低硬體門檻下運行 Gemma 4。

4) 開發者整合:Transformers / vLLM

如果你要把 Gemma 4 接進自己的應用:

  • Transformers:適合 Python 專案直接載入模型
  • vLLM:適合高效能 GPU 與高吞吐推理服務

快速選型

需求 推薦工具 硬體門檻
我只想先跑起來 Ollama 低(自動適配)
我想用圖形介面 LM Studio
顯存很吃緊(6GB-8GB) Unsloth / llama.cpp
我要做本地 AI 應用開發 Ollama / Transformers / vLLM 中到高
我要做微調訓練 Unsloth Studio 中到高

模型尺寸建議

Gemma 4 有多種尺寸(如 E2B、E4B、31B)。

  • 一般筆電建議先用量化後的 E2B / E4B
  • 顯存充足後再嘗試更大版本
记录并分享
使用 Hugo 建立
主題 StackJimmy 設計