🍥

KnightLi的博客

记录并分享日常

AI工具

Hugging Face 選擇 Llama 的 GGUF 模型時，量化怎麼選：從 Q8 到 Q2 的實用建議

用直觀方式理解 GGUF 量化等級差異，並提供從 Q8 到 Q2 的實際選型建議。

在 Hugging Face 選擇 Llama 的 GGUF 模型時，可以先把量化等級理解成「解析度」。解析度越低，所需 VRAM/RAM 越少，但品質也會逐步下降。

先理解 32、16 與 Q 系列

32：可視為原始未壓縮版本，品質最高，但硬體需求非常高。
16：仍接近原始品質，體積約為 32 的一半，實用性更高。
Q8：從這裡開始是量化版本，常見寫法為 Q8_0 或 Q8。
Q6、Q5、Q4、Q3、Q2：數字越小，資源占用越低，品質損失也越明顯。

`K_M` / `K_S` 是什麼

K_M 與 K_S 代表混合量化策略：

大部分權重使用目前量化等級
部分關鍵區塊保留較高精度

所以同等級下，Qx_K_M 或 Qx_K_S 通常會比純 Qx 稍好。

實用選型建議

硬體足夠：優先 Q8。
記憶體或顯存吃緊：逐步下調到 Q6 / Q5 / Q4。
建議下限：盡量不要低於 Q4，可優先 Q4_K_M。
Q3 以下：可見品質下降會更明顯。

品質梯度（高到低）

32
16

– 在這一點之上，品質是一樣的，但是硬體要求太瘋狂了 –

Q8
Q6_K_M
Q6_K_S
Q6
Q5_K_M
Q5_K_S
Q5

– 這是典型的甜蜜點 –

Q4_K_M
Q4_K_S
Q4

– 在這一點之下，品質下降變得可見 –

Q3_K_M
Q3_K_S
Q3
Q2_K_M
Q2_K_S
Q2

如果只記一個結論：大多數情況先從 Q8 或 Q6_K_M 開始，不夠再降到 Q5 或 Q4_K_M，通常更穩妥。