本地部署 Gemma 4：E2B、E4B、26B、31B 各量化版本需要多少顯存

Gemma 4 現在主要有四個本地部署尺寸：E2B、E4B、26B A4B 和 31B。其中 E2B、E4B 面向輕量和邊緣裝置，26B A4B 是 MoE 架構，31B 是更大的稠密模型。

本地執行時，最容易混淆的是兩個數字：

下面的表格按 GGUF 檔案體積估算顯存需求。預設假設是 llama.cpp、LM Studio、Ollama 這類本地推理場景，主要跑文字，使用中短上下文。如果要開長上下文、視覺/音訊輸入、並發請求，顯存要繼續往上留餘量。

先看結論

如果只是想本地可用，優先從 E4B Q4_K_M 或 E2B Q4_K_M 開始。如果有 24GB 顯存，26B A4B Q4_K_M 和 31B Q4_K_M 才開始進入比較舒服的範圍。

E2B 是最輕量的版本，適合筆電、迷你主機、行動端和低顯存測試。它的優勢是容易跑，缺點是複雜推理、程式碼和長任務穩定性有限。

量化版本	GGUF 檔案體積	最低顯存	更穩妥顯存	適合場景
`UD-IQ2_M`	2.29GB	4GB	6GB	極限低顯存測試
`UD-Q2_K_XL`	2.40GB	4GB	6GB	低顯存可用性優先
`Q3_K_M`	2.54GB	4GB	6GB	輕量聊天、摘要
`IQ4_XS`	2.98GB	6GB	8GB	品質和體積折中
`Q4_K_M`	3.11GB	6GB	8GB	E2B 常用推薦
`Q5_K_M`	3.36GB	6GB	8GB	比 Q4 更穩一點
`Q6_K`	4.50GB	8GB	10GB	小模型高品質量化
`Q8_0`	5.05GB	8GB	10GB	接近原始精度的輕量部署
`BF16`	9.31GB	12GB	16GB	除錯、對比、研究

E2B 的 Q4_K_M 已經夠日常體驗。如果只有 4GB 顯存，可以嘗試 2-bit 或 3-bit，但輸出品質會更容易波動。

E4B 是更實用的輕量版本。它比 E2B 更適合日常寫作、資料總結、輕量程式碼輔助和本地助手。

量化版本	GGUF 檔案體積	最低顯存	更穩妥顯存	適合場景
`UD-IQ2_M`	3.53GB	6GB	8GB	低顯存嘗試
`UD-Q2_K_XL`	3.74GB	6GB	8GB	低顯存可用性優先
`Q3_K_M`	4.06GB	6GB	10GB	輕量本地助手
`IQ4_XS`	4.72GB	8GB	12GB	品質和速度折中
`Q4_K_M`	4.98GB	8GB	12GB	E4B 常用推薦
`Q5_K_M`	5.48GB	8GB	12GB	更穩的日常使用
`Q6_K`	7.07GB	10GB	16GB	品質優先
`Q8_0`	8.19GB	12GB	16GB	接近原始精度
`BF16`	15.05GB	20GB	24GB	研究、評測、精度對比

如果你的顯卡是 8GB，E4B Q4_K_M 是很現實的起點。如果是 12GB 或 16GB，E4B Q8_0 也可以考慮。

26B A4B 是 MoE 版本，參數規模更大，但每次推理只啟用其中一部分專家。它適合更複雜的問答、程式碼、工具呼叫和 Agent 工作流。

量化版本	GGUF 檔案體積	最低顯存	更穩妥顯存	適合場景
`UD-IQ2_M`	9.97GB	14GB	16GB	16GB 顯卡極限嘗試
`UD-Q2_K_XL`	10.55GB	14GB	16GB	低顯存跑 26B
`UD-Q3_K_M`	12.53GB	16GB	20GB	品質略好，仍偏省顯存
`UD-IQ4_XS`	13.42GB	16GB	24GB	品質和體積折中
`UD-Q4_K_M`	16.87GB	20GB	24GB	26B 常用推薦
`UD-Q5_K_M`	21.15GB	24GB	32GB	更穩的高品質量化
`UD-Q6_K`	23.17GB	28GB	32GB	品質優先
`Q8_0`	26.86GB	32GB	40GB	接近原始精度
`BF16`	50.51GB	64GB	80GB	單卡消費級不現實

24GB 顯存是 26B A4B 比較舒服的分界線。 16GB 顯卡可以嘗試低位元版本，但上下文長度、並發和多模態都要收斂。

31B 是更大的稠密模型。它的優點是綜合能力更強，缺點是顯存壓力比 26B A4B 更直接。

量化版本	GGUF 檔案體積	最低顯存	更穩妥顯存	適合場景
`UD-IQ2_XXS`	8.53GB	12GB	16GB	極限低顯存嘗試，品質犧牲明顯
`UD-IQ2_M`	10.75GB	14GB	18GB	低顯存嘗試
`UD-Q2_K_XL`	11.77GB	16GB	20GB	16GB 顯卡可嘗試
`Q3_K_S`	13.21GB	16GB	24GB	更省顯存的 3-bit
`Q3_K_M`	14.74GB	20GB	24GB	3-bit 常用折中
`IQ4_XS`	16.37GB	20GB	24GB	接近 Q4 的折中
`Q4_K_M`	18.32GB	24GB	32GB	31B 常用推薦
`Q5_K_M`	21.66GB	28GB	32GB	更穩的高品質量化
`Q6_K`	25.20GB	32GB	40GB	品質優先
`Q8_0`	32.64GB	40GB	48GB	接近原始精度
`BF16`	61.41GB	80GB	96GB	伺服器或大顯存工作站

31B 的低位元版本可以在 16GB 顯卡上做實驗，但如果想日常使用，最好從 24GB 顯存起步。 Q4_K_M 是比較平衡的選擇，Q5_K_M 往上更適合 32GB 以上顯存。

GGUF 檔案體積只是權重大小。真正執行時還會增加這些開銷：

所以表格裡的「最低顯存」只能理解為「能啟動並短上下文執行」的門檻。如果你要 32K、64K、128K 甚至 256K 上下文，顯存需求會明顯增加。

如果只是想在本地體驗 Gemma 4：

一般使用者不需要追 BF16。本地部署的重點不是檔案越大越好，而是在顯存、速度、上下文和輸出品質之間找到平衡。