在 Hugging Face 選擇 Llama 的 GGUF 模型時,可以先把量化等級理解成「解析度」。解析度越低,所需 VRAM/RAM 越少,但品質也會逐步下降。
先理解 32、16 與 Q 系列
32:可視為原始未壓縮版本,品質最高,但硬體需求非常高。16:仍接近原始品質,體積約為32的一半,實用性更高。Q8:從這裡開始是量化版本,常見寫法為Q8_0或Q8。Q6、Q5、Q4、Q3、Q2:數字越小,資源占用越低,品質損失也越明顯。
K_M / K_S 是什麼
K_M 與 K_S 代表混合量化策略:
- 大部分權重使用目前量化等級
- 部分關鍵區塊保留較高精度
所以同等級下,Qx_K_M 或 Qx_K_S 通常會比純 Qx 稍好。
實用選型建議
- 硬體足夠:優先
Q8。 - 記憶體或顯存吃緊:逐步下調到
Q6/Q5/Q4。 - 建議下限:盡量不要低於
Q4,可優先Q4_K_M。 Q3以下:可見品質下降會更明顯。
品質梯度(高到低)
3216
– 在這一點之上,品質是一樣的,但是硬體要求太瘋狂了 –
Q8Q6_K_MQ6_K_SQ6Q5_K_MQ5_K_SQ5
– 這是典型的甜蜜點 –
Q4_K_MQ4_K_SQ4
– 在這一點之下,品質下降變得可見 –
Q3_K_MQ3_K_SQ3Q2_K_MQ2_K_SQ2
如果只記一個結論:大多數情況先從 Q8 或 Q6_K_M 開始,不夠再降到 Q5 或 Q4_K_M,通常更穩妥。