本地部署 Gemma 4:E2B、E4B、26B、31B 各量化版本需要多少顯存

整理 Gemma 4 E2B、E4B、26B A4B、31B 在 GGUF 常見量化版本下的檔案體積、最低顯存和更穩妥的顯存建議。

Gemma 4 現在主要有四個本地部署尺寸:E2BE4B26B A4B31B。 其中 E2BE4B 面向輕量和邊緣裝置,26B A4B 是 MoE 架構,31B 是更大的稠密模型。

本地執行時,最容易混淆的是兩個數字:

  • GGUF 檔案體積:模型權重檔案本身有多大。
  • 實際顯存占用:模型權重、KV cache、執行時開銷、上下文長度、是否載入多模態投影檔共同決定。

下面的表格按 GGUF 檔案體積估算顯存需求。 預設假設是 llama.cpp、LM Studio、Ollama 這類本地推理場景,主要跑文字,使用中短上下文。 如果要開長上下文、視覺/音訊輸入、並發請求,顯存要繼續往上留餘量。

先看結論

顯存 比較合適的選擇 不建議硬上
4GB E2B 的低位元量化 E4B 以上
6GB E2B Q4/Q5,E4B 低位元量化 26B、31B
8GB E2B Q8,E4B Q4/Q5 26B Q4、31B Q4
12GB E4B Q8,26B/31B 的 2-bit/3-bit 低品質嘗試 26B Q4 長上下文、31B Q4
16GB 26B 低位元量化,31B 低位元量化 31B Q4 長上下文、26B Q5 以上
24GB 26B Q4/Q5,31B Q4 31B Q8、BF16
32GB 26B Q6/Q8,31B Q5/Q6 BF16
48GB 31B Q8 更從容,26B Q8 長上下文 31B BF16
80GB+ 26B/31B BF16 普通消費卡單卡部署

如果只是想本地可用,優先從 E4B Q4_K_ME2B Q4_K_M 開始。 如果有 24GB 顯存,26B A4B Q4_K_M31B Q4_K_M 才開始進入比較舒服的範圍。

Gemma 4 E2B 顯存表

E2B 是最輕量的版本,適合筆電、迷你主機、行動端和低顯存測試。 它的優勢是容易跑,缺點是複雜推理、程式碼和長任務穩定性有限。

量化版本 GGUF 檔案體積 最低顯存 更穩妥顯存 適合場景
UD-IQ2_M 2.29GB 4GB 6GB 極限低顯存測試
UD-Q2_K_XL 2.40GB 4GB 6GB 低顯存可用性優先
Q3_K_M 2.54GB 4GB 6GB 輕量聊天、摘要
IQ4_XS 2.98GB 6GB 8GB 品質和體積折中
Q4_K_M 3.11GB 6GB 8GB E2B 常用推薦
Q5_K_M 3.36GB 6GB 8GB 比 Q4 更穩一點
Q6_K 4.50GB 8GB 10GB 小模型高品質量化
Q8_0 5.05GB 8GB 10GB 接近原始精度的輕量部署
BF16 9.31GB 12GB 16GB 除錯、對比、研究

E2B 的 Q4_K_M 已經夠日常體驗。 如果只有 4GB 顯存,可以嘗試 2-bit 或 3-bit,但輸出品質會更容易波動。

Gemma 4 E4B 顯存表

E4B 是更實用的輕量版本。 它比 E2B 更適合日常寫作、資料總結、輕量程式碼輔助和本地助手。

量化版本 GGUF 檔案體積 最低顯存 更穩妥顯存 適合場景
UD-IQ2_M 3.53GB 6GB 8GB 低顯存嘗試
UD-Q2_K_XL 3.74GB 6GB 8GB 低顯存可用性優先
Q3_K_M 4.06GB 6GB 10GB 輕量本地助手
IQ4_XS 4.72GB 8GB 12GB 品質和速度折中
Q4_K_M 4.98GB 8GB 12GB E4B 常用推薦
Q5_K_M 5.48GB 8GB 12GB 更穩的日常使用
Q6_K 7.07GB 10GB 16GB 品質優先
Q8_0 8.19GB 12GB 16GB 接近原始精度
BF16 15.05GB 20GB 24GB 研究、評測、精度對比

如果你的顯卡是 8GB,E4B Q4_K_M 是很現實的起點。 如果是 12GB 或 16GB,E4B Q8_0 也可以考慮。

Gemma 4 26B A4B 顯存表

26B A4B 是 MoE 版本,參數規模更大,但每次推理只啟用其中一部分專家。 它適合更複雜的問答、程式碼、工具呼叫和 Agent 工作流。

量化版本 GGUF 檔案體積 最低顯存 更穩妥顯存 適合場景
UD-IQ2_M 9.97GB 14GB 16GB 16GB 顯卡極限嘗試
UD-Q2_K_XL 10.55GB 14GB 16GB 低顯存跑 26B
UD-Q3_K_M 12.53GB 16GB 20GB 品質略好,仍偏省顯存
UD-IQ4_XS 13.42GB 16GB 24GB 品質和體積折中
UD-Q4_K_M 16.87GB 20GB 24GB 26B 常用推薦
UD-Q5_K_M 21.15GB 24GB 32GB 更穩的高品質量化
UD-Q6_K 23.17GB 28GB 32GB 品質優先
Q8_0 26.86GB 32GB 40GB 接近原始精度
BF16 50.51GB 64GB 80GB 單卡消費級不現實

24GB 顯存是 26B A4B 比較舒服的分界線。 16GB 顯卡可以嘗試低位元版本,但上下文長度、並發和多模態都要收斂。

Gemma 4 31B 顯存表

31B 是更大的稠密模型。 它的優點是綜合能力更強,缺點是顯存壓力比 26B A4B 更直接。

量化版本 GGUF 檔案體積 最低顯存 更穩妥顯存 適合場景
UD-IQ2_XXS 8.53GB 12GB 16GB 極限低顯存嘗試,品質犧牲明顯
UD-IQ2_M 10.75GB 14GB 18GB 低顯存嘗試
UD-Q2_K_XL 11.77GB 16GB 20GB 16GB 顯卡可嘗試
Q3_K_S 13.21GB 16GB 24GB 更省顯存的 3-bit
Q3_K_M 14.74GB 20GB 24GB 3-bit 常用折中
IQ4_XS 16.37GB 20GB 24GB 接近 Q4 的折中
Q4_K_M 18.32GB 24GB 32GB 31B 常用推薦
Q5_K_M 21.66GB 28GB 32GB 更穩的高品質量化
Q6_K 25.20GB 32GB 40GB 品質優先
Q8_0 32.64GB 40GB 48GB 接近原始精度
BF16 61.41GB 80GB 96GB 伺服器或大顯存工作站

31B 的低位元版本可以在 16GB 顯卡上做實驗,但如果想日常使用,最好從 24GB 顯存起步。 Q4_K_M 是比較平衡的選擇,Q5_K_M 往上更適合 32GB 以上顯存。

為什麼實際占用會比檔案體積更高

GGUF 檔案體積只是權重大小。 真正執行時還會增加這些開銷:

  • KV cache:上下文越長,占用越高。
  • 批次大小和並發:一次處理更多 token 或多使用者並發,會增加顯存。
  • 多模態組件:圖片、音訊、影片輸入通常還要載入 mmproj 或額外處理模組。
  • 執行時後端:CUDA、Metal、ROCm、CPU/GPU 分層載入的占用不同。
  • KV cache 量化:開啟 q8_0q4_0 等 KV cache 量化可以省顯存,但可能影響細節。

所以表格裡的「最低顯存」只能理解為「能啟動並短上下文執行」的門檻。 如果你要 32K、64K、128K 甚至 256K 上下文,顯存需求會明顯增加。

怎麼選

如果只是想在本地體驗 Gemma 4:

  • 4GB 到 6GB 顯存:選 E2B Q3_K_ME2B Q4_K_M
  • 8GB 顯存:優先選 E4B Q4_K_M,也可以跑 E2B Q8_0
  • 12GB 顯存:選 E4B Q8_0,或者嘗試 26B/31B 的低位元版本。
  • 16GB 顯存:可以嘗試 26B A4B UD-Q3_K_M31B Q3_K_S,但不要期待長上下文很舒服。
  • 24GB 顯存:26B A4B UD-Q4_K_M31B Q4_K_M 是重點選擇。
  • 32GB 以上:可以考慮 Q5_K_MQ6_K,或者更長上下文。

一般使用者不需要追 BF16。 本地部署的重點不是檔案越大越好,而是在顯存、速度、上下文和輸出品質之間找到平衡。

參考來源

记录并分享
使用 Hugo 建立
主題 StackJimmy 設計