本地部署 Gemma 4：E2B、E4B、26B、31B 各量化版本需要多少显存

Gemma 4 现在主要有四个本地部署尺寸：E2B、E4B、26B A4B 和 31B。其中 E2B、E4B 面向轻量和边缘设备，26B A4B 是 MoE 架构，31B 是更大的稠密模型。

本地运行时，最容易混淆的是两个数字：

下面的表格按 GGUF 文件体积估算显存需求。默认假设是 llama.cpp、LM Studio、Ollama 这类本地推理场景，主要跑文本，使用中短上下文。如果要开长上下文、视觉/音频输入、并发请求，显存要继续往上留余量。

先看结论

如果只是想本地可用，优先从 E4B Q4_K_M 或 E2B Q4_K_M 开始。如果有 24GB 显存，26B A4B Q4_K_M 和 31B Q4_K_M 才开始进入比较舒服的范围。

E2B 是最轻量的版本，适合笔记本、迷你主机、移动端和低显存测试。它的优势是容易跑，缺点是复杂推理、代码和长任务稳定性有限。

量化版本	GGUF 文件体积	最低显存	更稳妥显存	适合场景
`UD-IQ2_M`	2.29GB	4GB	6GB	极限低显存测试
`UD-Q2_K_XL`	2.40GB	4GB	6GB	低显存可用性优先
`Q3_K_M`	2.54GB	4GB	6GB	轻量聊天、摘要
`IQ4_XS`	2.98GB	6GB	8GB	质量和体积折中
`Q4_K_M`	3.11GB	6GB	8GB	E2B 常用推荐
`Q5_K_M`	3.36GB	6GB	8GB	比 Q4 更稳一点
`Q6_K`	4.50GB	8GB	10GB	小模型高质量量化
`Q8_0`	5.05GB	8GB	10GB	接近原始精度的轻量部署
`BF16`	9.31GB	12GB	16GB	调试、对比、研究

E2B 的 Q4_K_M 已经够日常体验。如果只有 4GB 显存，可以尝试 2-bit 或 3-bit，但输出质量会更容易波动。

E4B 是更实用的轻量版本。它比 E2B 更适合日常写作、资料总结、轻量代码辅助和本地助手。

量化版本	GGUF 文件体积	最低显存	更稳妥显存	适合场景
`UD-IQ2_M`	3.53GB	6GB	8GB	低显存尝试
`UD-Q2_K_XL`	3.74GB	6GB	8GB	低显存可用性优先
`Q3_K_M`	4.06GB	6GB	10GB	轻量本地助手
`IQ4_XS`	4.72GB	8GB	12GB	质量和速度折中
`Q4_K_M`	4.98GB	8GB	12GB	E4B 常用推荐
`Q5_K_M`	5.48GB	8GB	12GB	更稳的日常使用
`Q6_K`	7.07GB	10GB	16GB	质量优先
`Q8_0`	8.19GB	12GB	16GB	接近原始精度
`BF16`	15.05GB	20GB	24GB	研究、评测、精度对比

如果你的显卡是 8GB，E4B Q4_K_M 是很现实的起点。如果是 12GB 或 16GB，E4B Q8_0 也可以考虑。

26B A4B 是 MoE 版本，参数规模更大，但每次推理只激活其中一部分专家。它适合更复杂的问答、代码、工具调用和 Agent 工作流。

量化版本	GGUF 文件体积	最低显存	更稳妥显存	适合场景
`UD-IQ2_M`	9.97GB	14GB	16GB	16GB 显卡极限尝试
`UD-Q2_K_XL`	10.55GB	14GB	16GB	低显存跑 26B
`UD-Q3_K_M`	12.53GB	16GB	20GB	质量略好，仍偏省显存
`UD-IQ4_XS`	13.42GB	16GB	24GB	质量和体积折中
`UD-Q4_K_M`	16.87GB	20GB	24GB	26B 常用推荐
`UD-Q5_K_M`	21.15GB	24GB	32GB	更稳的高质量量化
`UD-Q6_K`	23.17GB	28GB	32GB	质量优先
`Q8_0`	26.86GB	32GB	40GB	接近原始精度
`BF16`	50.51GB	64GB	80GB	单卡消费级不现实

24GB 显存是 26B A4B 比较舒服的分界线。 16GB 显卡可以尝试低比特版本，但上下文长度、并发和多模态都要收敛。

31B 是更大的稠密模型。它的优点是综合能力更强，缺点是显存压力比 26B A4B 更直接。

量化版本	GGUF 文件体积	最低显存	更稳妥显存	适合场景
`UD-IQ2_XXS`	8.53GB	12GB	16GB	极限低显存尝试，质量牺牲明显
`UD-IQ2_M`	10.75GB	14GB	18GB	低显存尝试
`UD-Q2_K_XL`	11.77GB	16GB	20GB	16GB 显卡可尝试
`Q3_K_S`	13.21GB	16GB	24GB	更省显存的 3-bit
`Q3_K_M`	14.74GB	20GB	24GB	3-bit 常用折中
`IQ4_XS`	16.37GB	20GB	24GB	接近 Q4 的折中
`Q4_K_M`	18.32GB	24GB	32GB	31B 常用推荐
`Q5_K_M`	21.66GB	28GB	32GB	更稳的高质量量化
`Q6_K`	25.20GB	32GB	40GB	质量优先
`Q8_0`	32.64GB	40GB	48GB	接近原始精度
`BF16`	61.41GB	80GB	96GB	服务器或大显存工作站

31B 的低比特版本可以在 16GB 显卡上做实验，但如果想日常使用，最好从 24GB 显存起步。 Q4_K_M 是比较平衡的选择，Q5_K_M 往上更适合 32GB 以上显存。

GGUF 文件体积只是权重大小。真正运行时还会增加这些开销：

所以表格里的“最低显存”只能理解为“能启动并短上下文运行”的门槛。如果你要 32K、64K、128K 甚至 256K 上下文，显存需求会明显增加。

如果只是想在本地体验 Gemma 4：

一般用户不需要追 BF16。本地部署的核心不是文件越大越好，而是在显存、速度、上下文和输出质量之间找到平衡。