Gemma 4 现在主要有四个本地部署尺寸:E2B、E4B、26B A4B 和 31B。
其中 E2B、E4B 面向轻量和边缘设备,26B A4B 是 MoE 架构,31B 是更大的稠密模型。
本地运行时,最容易混淆的是两个数字:
- GGUF 文件体积:模型权重文件本身有多大。
- 实际显存占用:模型权重、KV cache、运行时开销、上下文长度、是否加载多模态投影文件共同决定。
下面的表格按 GGUF 文件体积估算显存需求。
默认假设是 llama.cpp、LM Studio、Ollama 这类本地推理场景,主要跑文本,使用中短上下文。
如果要开长上下文、视觉/音频输入、并发请求,显存要继续往上留余量。
先看结论
| 显存 | 比较合适的选择 | 不建议硬上 |
|---|---|---|
| 4GB | E2B 的低比特量化 | E4B 以上 |
| 6GB | E2B Q4/Q5,E4B 低比特量化 | 26B、31B |
| 8GB | E2B Q8,E4B Q4/Q5 | 26B Q4、31B Q4 |
| 12GB | E4B Q8,26B/31B 的 2-bit/3-bit 低质量尝试 | 26B Q4 长上下文、31B Q4 |
| 16GB | 26B 低比特量化,31B 低比特量化 | 31B Q4 长上下文、26B Q5 以上 |
| 24GB | 26B Q4/Q5,31B Q4 | 31B Q8、BF16 |
| 32GB | 26B Q6/Q8,31B Q5/Q6 | BF16 |
| 48GB | 31B Q8 更从容,26B Q8 长上下文 | 31B BF16 |
| 80GB+ | 26B/31B BF16 | 普通消费卡单卡部署 |
如果只是想本地可用,优先从 E4B Q4_K_M 或 E2B Q4_K_M 开始。
如果有 24GB 显存,26B A4B Q4_K_M 和 31B Q4_K_M 才开始进入比较舒服的范围。
Gemma 4 E2B 显存表
E2B 是最轻量的版本,适合笔记本、迷你主机、移动端和低显存测试。
它的优势是容易跑,缺点是复杂推理、代码和长任务稳定性有限。
| 量化版本 | GGUF 文件体积 | 最低显存 | 更稳妥显存 | 适合场景 |
|---|---|---|---|---|
UD-IQ2_M |
2.29GB | 4GB | 6GB | 极限低显存测试 |
UD-Q2_K_XL |
2.40GB | 4GB | 6GB | 低显存可用性优先 |
Q3_K_M |
2.54GB | 4GB | 6GB | 轻量聊天、摘要 |
IQ4_XS |
2.98GB | 6GB | 8GB | 质量和体积折中 |
Q4_K_M |
3.11GB | 6GB | 8GB | E2B 常用推荐 |
Q5_K_M |
3.36GB | 6GB | 8GB | 比 Q4 更稳一点 |
Q6_K |
4.50GB | 8GB | 10GB | 小模型高质量量化 |
Q8_0 |
5.05GB | 8GB | 10GB | 接近原始精度的轻量部署 |
BF16 |
9.31GB | 12GB | 16GB | 调试、对比、研究 |
E2B 的 Q4_K_M 已经够日常体验。
如果只有 4GB 显存,可以尝试 2-bit 或 3-bit,但输出质量会更容易波动。
Gemma 4 E4B 显存表
E4B 是更实用的轻量版本。
它比 E2B 更适合日常写作、资料总结、轻量代码辅助和本地助手。
| 量化版本 | GGUF 文件体积 | 最低显存 | 更稳妥显存 | 适合场景 |
|---|---|---|---|---|
UD-IQ2_M |
3.53GB | 6GB | 8GB | 低显存尝试 |
UD-Q2_K_XL |
3.74GB | 6GB | 8GB | 低显存可用性优先 |
Q3_K_M |
4.06GB | 6GB | 10GB | 轻量本地助手 |
IQ4_XS |
4.72GB | 8GB | 12GB | 质量和速度折中 |
Q4_K_M |
4.98GB | 8GB | 12GB | E4B 常用推荐 |
Q5_K_M |
5.48GB | 8GB | 12GB | 更稳的日常使用 |
Q6_K |
7.07GB | 10GB | 16GB | 质量优先 |
Q8_0 |
8.19GB | 12GB | 16GB | 接近原始精度 |
BF16 |
15.05GB | 20GB | 24GB | 研究、评测、精度对比 |
如果你的显卡是 8GB,E4B Q4_K_M 是很现实的起点。
如果是 12GB 或 16GB,E4B Q8_0 也可以考虑。
Gemma 4 26B A4B 显存表
26B A4B 是 MoE 版本,参数规模更大,但每次推理只激活其中一部分专家。
它适合更复杂的问答、代码、工具调用和 Agent 工作流。
| 量化版本 | GGUF 文件体积 | 最低显存 | 更稳妥显存 | 适合场景 |
|---|---|---|---|---|
UD-IQ2_M |
9.97GB | 14GB | 16GB | 16GB 显卡极限尝试 |
UD-Q2_K_XL |
10.55GB | 14GB | 16GB | 低显存跑 26B |
UD-Q3_K_M |
12.53GB | 16GB | 20GB | 质量略好,仍偏省显存 |
UD-IQ4_XS |
13.42GB | 16GB | 24GB | 质量和体积折中 |
UD-Q4_K_M |
16.87GB | 20GB | 24GB | 26B 常用推荐 |
UD-Q5_K_M |
21.15GB | 24GB | 32GB | 更稳的高质量量化 |
UD-Q6_K |
23.17GB | 28GB | 32GB | 质量优先 |
Q8_0 |
26.86GB | 32GB | 40GB | 接近原始精度 |
BF16 |
50.51GB | 64GB | 80GB | 单卡消费级不现实 |
24GB 显存是 26B A4B 比较舒服的分界线。 16GB 显卡可以尝试低比特版本,但上下文长度、并发和多模态都要收敛。
Gemma 4 31B 显存表
31B 是更大的稠密模型。
它的优点是综合能力更强,缺点是显存压力比 26B A4B 更直接。
| 量化版本 | GGUF 文件体积 | 最低显存 | 更稳妥显存 | 适合场景 |
|---|---|---|---|---|
UD-IQ2_XXS |
8.53GB | 12GB | 16GB | 极限低显存尝试,质量牺牲明显 |
UD-IQ2_M |
10.75GB | 14GB | 18GB | 低显存尝试 |
UD-Q2_K_XL |
11.77GB | 16GB | 20GB | 16GB 显卡可尝试 |
Q3_K_S |
13.21GB | 16GB | 24GB | 更省显存的 3-bit |
Q3_K_M |
14.74GB | 20GB | 24GB | 3-bit 常用折中 |
IQ4_XS |
16.37GB | 20GB | 24GB | 接近 Q4 的折中 |
Q4_K_M |
18.32GB | 24GB | 32GB | 31B 常用推荐 |
Q5_K_M |
21.66GB | 28GB | 32GB | 更稳的高质量量化 |
Q6_K |
25.20GB | 32GB | 40GB | 质量优先 |
Q8_0 |
32.64GB | 40GB | 48GB | 接近原始精度 |
BF16 |
61.41GB | 80GB | 96GB | 服务器或大显存工作站 |
31B 的低比特版本可以在 16GB 显卡上做实验,但如果想日常使用,最好从 24GB 显存起步。
Q4_K_M 是比较平衡的选择,Q5_K_M 往上更适合 32GB 以上显存。
为什么实际占用会比文件体积更高
GGUF 文件体积只是权重大小。 真正运行时还会增加这些开销:
KV cache:上下文越长,占用越高。- 批大小和并发:一次处理更多 token 或多用户并发,会增加显存。
- 多模态组件:图片、音频、视频输入通常还要加载
mmproj或额外处理模块。 - 运行时后端:CUDA、Metal、ROCm、CPU/GPU 分层加载的占用不同。
- KV cache 量化:开启
q8_0、q4_0等 KV cache 量化可以省显存,但可能影响细节。
所以表格里的“最低显存”只能理解为“能启动并短上下文运行”的门槛。 如果你要 32K、64K、128K 甚至 256K 上下文,显存需求会明显增加。
怎么选
如果只是想在本地体验 Gemma 4:
- 4GB 到 6GB 显存:选
E2B Q3_K_M或E2B Q4_K_M。 - 8GB 显存:优先选
E4B Q4_K_M,也可以跑E2B Q8_0。 - 12GB 显存:选
E4B Q8_0,或者尝试 26B/31B 的低比特版本。 - 16GB 显存:可以尝试
26B A4B UD-Q3_K_M或31B Q3_K_S,但不要期待长上下文很舒服。 - 24GB 显存:
26B A4B UD-Q4_K_M和31B Q4_K_M是重点选择。 - 32GB 以上:可以考虑
Q5_K_M、Q6_K,或者更长上下文。
一般用户不需要追 BF16。 本地部署的核心不是文件越大越好,而是在显存、速度、上下文和输出质量之间找到平衡。