🍥

KnightLi的博客

记录并分享日常

AI工具

如何在笔记本电脑上运行 Gemma 4：5 分钟本地部署指南

通过 Ollama 在 Mac、Windows 和 Linux 笔记本上快速运行 Gemma 4，并附上模型选择与性能建议。

如果你想在笔记本上本地运行 Gemma 4，Ollama 是目前最省事的方式之一。即使不折腾复杂环境，通常 5 分钟左右也能跑起来。

第 1 步：安装 Ollama

打开 https://ollama.com，下载对应系统的安装包。
按系统完成安装：

macOS：拖到 Applications。
Windows：运行 .exe 安装程序。
Linux：使用官网提供的安装脚本。

安装完成后，Ollama 会以后台服务形式运行。除初次安装外，日常可以只用简单命令。

第 2 步：下载 Gemma 4 模型

打开终端，执行：

1

ollama pull gemma4:4b

如果你的机器性能更强，可以改成 12b 或 27b。下载完成后，模型会保存在本地。

查看已下载模型：

1

ollama list

第 3 步：启动模型

1

ollama run gemma4:4b

这会在终端打开交互式对话。输入问题后回车即可；结束会话可输入：

1

/bye

如果你更喜欢网页聊天界面，可以配合 Open WebUI 使用。它可以把 Ollama 包装成浏览器端 UI，通常通过 Docker 几分钟即可完成配置。

笔记本性能优化建议

Apple Silicon（M2/M3/M4）：默认走 Metal，加速效果通常很好，12B 也有不错体验。
NVIDIA 显卡：检测到兼容 GPU 时会自动使用 CUDA，建议提前更新驱动。
仅 CPU 推理：可以运行，但大模型会明显变慢；多数 CPU-only 场景建议优先 4B。
释放内存：加载大模型前尽量关闭占内存应用。经验上每 10 亿参数大约需要 0.5GB 到 1GB 内存。

模型怎么选

Gemma 4 1B：适合轻量问答、基础摘要、快速查询；复杂推理能力有限。
Gemma 4 4B：适合多数日常任务（写作辅助、代码辅助、资料总结），速度和质量平衡较好。
Gemma 4 12B：适合更长上下文和更复杂任务，在代码与推理场景更稳。
Gemma 4 27B：适合高要求任务，效果更接近云端大模型，但对硬件要求明显更高。

相关文章