Gemma 4 現在主要有四個本地部署尺寸:E2B、E4B、26B A4B 和 31B。
其中 E2B、E4B 面向輕量和邊緣裝置,26B A4B 是 MoE 架構,31B 是更大的稠密模型。
本地執行時,最容易混淆的是兩個數字:
- GGUF 檔案體積:模型權重檔案本身有多大。
- 實際顯存占用:模型權重、KV cache、執行時開銷、上下文長度、是否載入多模態投影檔共同決定。
下面的表格按 GGUF 檔案體積估算顯存需求。
預設假設是 llama.cpp、LM Studio、Ollama 這類本地推理場景,主要跑文字,使用中短上下文。
如果要開長上下文、視覺/音訊輸入、並發請求,顯存要繼續往上留餘量。
先看結論
| 顯存 | 比較合適的選擇 | 不建議硬上 |
|---|---|---|
| 4GB | E2B 的低位元量化 | E4B 以上 |
| 6GB | E2B Q4/Q5,E4B 低位元量化 | 26B、31B |
| 8GB | E2B Q8,E4B Q4/Q5 | 26B Q4、31B Q4 |
| 12GB | E4B Q8,26B/31B 的 2-bit/3-bit 低品質嘗試 | 26B Q4 長上下文、31B Q4 |
| 16GB | 26B 低位元量化,31B 低位元量化 | 31B Q4 長上下文、26B Q5 以上 |
| 24GB | 26B Q4/Q5,31B Q4 | 31B Q8、BF16 |
| 32GB | 26B Q6/Q8,31B Q5/Q6 | BF16 |
| 48GB | 31B Q8 更從容,26B Q8 長上下文 | 31B BF16 |
| 80GB+ | 26B/31B BF16 | 普通消費卡單卡部署 |
如果只是想本地可用,優先從 E4B Q4_K_M 或 E2B Q4_K_M 開始。
如果有 24GB 顯存,26B A4B Q4_K_M 和 31B Q4_K_M 才開始進入比較舒服的範圍。
Gemma 4 E2B 顯存表
E2B 是最輕量的版本,適合筆電、迷你主機、行動端和低顯存測試。
它的優勢是容易跑,缺點是複雜推理、程式碼和長任務穩定性有限。
| 量化版本 | GGUF 檔案體積 | 最低顯存 | 更穩妥顯存 | 適合場景 |
|---|---|---|---|---|
UD-IQ2_M |
2.29GB | 4GB | 6GB | 極限低顯存測試 |
UD-Q2_K_XL |
2.40GB | 4GB | 6GB | 低顯存可用性優先 |
Q3_K_M |
2.54GB | 4GB | 6GB | 輕量聊天、摘要 |
IQ4_XS |
2.98GB | 6GB | 8GB | 品質和體積折中 |
Q4_K_M |
3.11GB | 6GB | 8GB | E2B 常用推薦 |
Q5_K_M |
3.36GB | 6GB | 8GB | 比 Q4 更穩一點 |
Q6_K |
4.50GB | 8GB | 10GB | 小模型高品質量化 |
Q8_0 |
5.05GB | 8GB | 10GB | 接近原始精度的輕量部署 |
BF16 |
9.31GB | 12GB | 16GB | 除錯、對比、研究 |
E2B 的 Q4_K_M 已經夠日常體驗。
如果只有 4GB 顯存,可以嘗試 2-bit 或 3-bit,但輸出品質會更容易波動。
Gemma 4 E4B 顯存表
E4B 是更實用的輕量版本。
它比 E2B 更適合日常寫作、資料總結、輕量程式碼輔助和本地助手。
| 量化版本 | GGUF 檔案體積 | 最低顯存 | 更穩妥顯存 | 適合場景 |
|---|---|---|---|---|
UD-IQ2_M |
3.53GB | 6GB | 8GB | 低顯存嘗試 |
UD-Q2_K_XL |
3.74GB | 6GB | 8GB | 低顯存可用性優先 |
Q3_K_M |
4.06GB | 6GB | 10GB | 輕量本地助手 |
IQ4_XS |
4.72GB | 8GB | 12GB | 品質和速度折中 |
Q4_K_M |
4.98GB | 8GB | 12GB | E4B 常用推薦 |
Q5_K_M |
5.48GB | 8GB | 12GB | 更穩的日常使用 |
Q6_K |
7.07GB | 10GB | 16GB | 品質優先 |
Q8_0 |
8.19GB | 12GB | 16GB | 接近原始精度 |
BF16 |
15.05GB | 20GB | 24GB | 研究、評測、精度對比 |
如果你的顯卡是 8GB,E4B Q4_K_M 是很現實的起點。
如果是 12GB 或 16GB,E4B Q8_0 也可以考慮。
Gemma 4 26B A4B 顯存表
26B A4B 是 MoE 版本,參數規模更大,但每次推理只啟用其中一部分專家。
它適合更複雜的問答、程式碼、工具呼叫和 Agent 工作流。
| 量化版本 | GGUF 檔案體積 | 最低顯存 | 更穩妥顯存 | 適合場景 |
|---|---|---|---|---|
UD-IQ2_M |
9.97GB | 14GB | 16GB | 16GB 顯卡極限嘗試 |
UD-Q2_K_XL |
10.55GB | 14GB | 16GB | 低顯存跑 26B |
UD-Q3_K_M |
12.53GB | 16GB | 20GB | 品質略好,仍偏省顯存 |
UD-IQ4_XS |
13.42GB | 16GB | 24GB | 品質和體積折中 |
UD-Q4_K_M |
16.87GB | 20GB | 24GB | 26B 常用推薦 |
UD-Q5_K_M |
21.15GB | 24GB | 32GB | 更穩的高品質量化 |
UD-Q6_K |
23.17GB | 28GB | 32GB | 品質優先 |
Q8_0 |
26.86GB | 32GB | 40GB | 接近原始精度 |
BF16 |
50.51GB | 64GB | 80GB | 單卡消費級不現實 |
24GB 顯存是 26B A4B 比較舒服的分界線。 16GB 顯卡可以嘗試低位元版本,但上下文長度、並發和多模態都要收斂。
Gemma 4 31B 顯存表
31B 是更大的稠密模型。
它的優點是綜合能力更強,缺點是顯存壓力比 26B A4B 更直接。
| 量化版本 | GGUF 檔案體積 | 最低顯存 | 更穩妥顯存 | 適合場景 |
|---|---|---|---|---|
UD-IQ2_XXS |
8.53GB | 12GB | 16GB | 極限低顯存嘗試,品質犧牲明顯 |
UD-IQ2_M |
10.75GB | 14GB | 18GB | 低顯存嘗試 |
UD-Q2_K_XL |
11.77GB | 16GB | 20GB | 16GB 顯卡可嘗試 |
Q3_K_S |
13.21GB | 16GB | 24GB | 更省顯存的 3-bit |
Q3_K_M |
14.74GB | 20GB | 24GB | 3-bit 常用折中 |
IQ4_XS |
16.37GB | 20GB | 24GB | 接近 Q4 的折中 |
Q4_K_M |
18.32GB | 24GB | 32GB | 31B 常用推薦 |
Q5_K_M |
21.66GB | 28GB | 32GB | 更穩的高品質量化 |
Q6_K |
25.20GB | 32GB | 40GB | 品質優先 |
Q8_0 |
32.64GB | 40GB | 48GB | 接近原始精度 |
BF16 |
61.41GB | 80GB | 96GB | 伺服器或大顯存工作站 |
31B 的低位元版本可以在 16GB 顯卡上做實驗,但如果想日常使用,最好從 24GB 顯存起步。
Q4_K_M 是比較平衡的選擇,Q5_K_M 往上更適合 32GB 以上顯存。
為什麼實際占用會比檔案體積更高
GGUF 檔案體積只是權重大小。 真正執行時還會增加這些開銷:
KV cache:上下文越長,占用越高。- 批次大小和並發:一次處理更多 token 或多使用者並發,會增加顯存。
- 多模態組件:圖片、音訊、影片輸入通常還要載入
mmproj或額外處理模組。 - 執行時後端:CUDA、Metal、ROCm、CPU/GPU 分層載入的占用不同。
- KV cache 量化:開啟
q8_0、q4_0等 KV cache 量化可以省顯存,但可能影響細節。
所以表格裡的「最低顯存」只能理解為「能啟動並短上下文執行」的門檻。 如果你要 32K、64K、128K 甚至 256K 上下文,顯存需求會明顯增加。
怎麼選
如果只是想在本地體驗 Gemma 4:
- 4GB 到 6GB 顯存:選
E2B Q3_K_M或E2B Q4_K_M。 - 8GB 顯存:優先選
E4B Q4_K_M,也可以跑E2B Q8_0。 - 12GB 顯存:選
E4B Q8_0,或者嘗試 26B/31B 的低位元版本。 - 16GB 顯存:可以嘗試
26B A4B UD-Q3_K_M或31B Q3_K_S,但不要期待長上下文很舒服。 - 24GB 顯存:
26B A4B UD-Q4_K_M和31B Q4_K_M是重點選擇。 - 32GB 以上:可以考慮
Q5_K_M、Q6_K,或者更長上下文。
一般使用者不需要追 BF16。 本地部署的重點不是檔案越大越好,而是在顯存、速度、上下文和輸出品質之間找到平衡。