如果你想在笔记本上本地运行 Gemma 4,Ollama 是目前最省事的方式之一。即使不折腾复杂环境,通常 5 分钟左右也能跑起来。
第 1 步:安装 Ollama
- 打开
https://ollama.com,下载对应系统的安装包。 - 按系统完成安装:
- macOS:拖到
Applications。 - Windows:运行
.exe安装程序。 - Linux:使用官网提供的安装脚本。
安装完成后,Ollama 会以后台服务形式运行。除初次安装外,日常可以只用简单命令。
第 2 步:下载 Gemma 4 模型
打开终端,执行:
|
|
如果你的机器性能更强,可以改成 12b 或 27b。下载完成后,模型会保存在本地。
查看已下载模型:
|
|
第 3 步:启动模型
|
|
这会在终端打开交互式对话。输入问题后回车即可;结束会话可输入:
|
|
如果你更喜欢网页聊天界面,可以配合 Open WebUI 使用。它可以把 Ollama 包装成浏览器端 UI,通常通过 Docker 几分钟即可完成配置。
笔记本性能优化建议
- Apple Silicon(M2/M3/M4):默认走 Metal,加速效果通常很好,
12B也有不错体验。 - NVIDIA 显卡:检测到兼容 GPU 时会自动使用 CUDA,建议提前更新驱动。
- 仅 CPU 推理:可以运行,但大模型会明显变慢;多数 CPU-only 场景建议优先
4B。 - 释放内存:加载大模型前尽量关闭占内存应用。经验上每 10 亿参数大约需要
0.5GB 到 1GB内存。
模型怎么选
Gemma 4 1B:适合轻量问答、基础摘要、快速查询;复杂推理能力有限。Gemma 4 4B:适合多数日常任务(写作辅助、代码辅助、资料总结),速度和质量平衡较好。Gemma 4 12B:适合更长上下文和更复杂任务,在代码与推理场景更稳。Gemma 4 27B:适合高要求任务,效果更接近云端大模型,但对硬件要求明显更高。