一次偏极限的尝试:在 Raspberry Pi 5(8GB RAM) 上运行 Gemma 4。目标不是大模型版本,而是最小体量的 E2B。
结论先说:能跑、能用,但更适合低交互频率场景,不适合高实时要求的对话体验。
测试环境
- 设备:Raspberry Pi 5(4 核 CPU,8GB RAM)
- 系统:Ubuntu Server(无图形界面)
- 访问方式:SSH
- 模型运行方式:LM Studio CLI(仅命令行模式)
- 模型:Gemma 4 E2B(约 4.5GB)
第 1 步:安装并启动 LM Studio CLI
安装 LM Studio 的 CLI 版本,然后启动服务并查看可用命令。
由于是纯命令行环境,这种仅命令行部署方式非常适合树莓派。
第 2 步:把模型存储切到 SSD
为了避免频繁读写 SD 卡,我将模型下载目录改到了外接 SSD。
树莓派 5 接 SSD 的体验明显比早期机型更实用,长期运行本地模型建议优先使用 SSD。
第 3 步:下载并加载 Gemma 4 E2B
下载完成后,模型可以正常加载进内存。
按官方信息,Gemma 4 系列具备:
- 面向 Agent 场景的工具调用能力(function calling)
- 多模态能力(含图像/视频;小模型也具备语音相关能力)
128K上下文窗口- Apache 2.0 许可(可商用)
从树莓派的硬件条件看,E2B 这一档更适合先试起来。
第 4 步:启动 API 并开放局域网访问
模型加载后,我先在本机端口启动 API(4000),并通过 HTTP 请求确认模型列表可返回。
问题在于:默认只监听本机,局域网其他设备无法直接访问。
因为启动参数里不能直接设置 host,我用了 socat 做端口转发,把树莓派外部端口请求桥接到 LM Studio 内部端口,实现局域网访问。
结果是可行的:我在同一局域网的 MacBook 上能成功请求并拿到模型列表。
第 5 步:接入编辑器(Zed)
LM Studio 的本地服务兼容 OpenAI API 形态,因此多数支持自定义 base_url 的工具都可以直接接入。
我在 Zed 里新增了一个 LLM provider,指向树莓派上的 Gemma 4 实例,随后在编辑器内聊天测试通过。
实际可用性判断
这套方案适合:
- 本地自动化脚本
- 低并发、低实时性要求的辅助任务
- 个人学习和边缘设备实验
不太适合:
- 高频交互聊天
- 对响应延迟敏感的开发协作场景
结论
在 Raspberry Pi 5 上运行 Gemma 4(E2B)是可行的,而且实际效果比预期更好。
如果你的目标是“能离线跑、能接工具、能完成轻中量任务”,这条路线值得尝试;如果目标是流畅实时交互,仍建议上更强硬件。