🍥

KnightLi的博客

记录并分享日常

AI工具

Gemma 4 本地调用指南：从一键运行到开发集成

整理 Gemma 4 的本地主流调用方案，包含 Ollama、LM Studio、llama.cpp 与开发者集成路径。

如果你想在本地调用 Gemma 4（Google 2026 年发布的新一代开源模型），可以按需求从这四类方案里选。

1) 最快上手：Ollama（推荐）

这是门槛最低的方式，适合快速测试、日常对话和本地 API 调用。

1

ollama run gemma4

特点：

Win/Mac/Linux 都可用
自动处理硬件加速
提供兼容 OpenAI 风格的本地 API

2) 图形界面：LM Studio / Unsloth Studio

如果你更习惯桌面 GUI（类似 ChatGPT），这两类工具更顺手。

LM Studio：可直接搜索和下载 Hugging Face 上的 Gemma 4 量化模型（如 4-bit、8-bit），并查看资源占用。
Unsloth Studio：除了推理，也支持低显存微调。对 6GB-8GB 显存机器更友好。

3) 低配与极致控制：llama.cpp

适合老机器、纯 CPU 场景，或希望深度控制推理参数的用户。

你可以使用 .gguf 模型文件配合量化版本，在更低硬件门槛下运行 Gemma 4。

4) 开发集成：Transformers / vLLM

如果你要把 Gemma 4 接进自己的应用：

Transformers：适合 Python 项目内直接加载模型
vLLM：适合高性能 GPU 场景和高吞吐推理服务

快速选型

需求	推荐工具	硬件门槛
我只想马上跑起来	Ollama	低（自动适配）
我更喜欢图形界面	LM Studio	中
显存很紧张（6GB-8GB）	Unsloth / llama.cpp	低
我要做本地 AI 应用开发	Ollama / Transformers / vLLM	中到高
我要做微调训练	Unsloth Studio	中到高

模型尺寸建议

Gemma 4 有多种尺寸（如 E2B、E4B、31B）。

普通办公本优先选量化后的 E2B / E4B
显存更充足时再尝试更大版本