大型模型量化詳解：FP16、Q8、Q5、Q4 到 Q2 怎麼選？

量化的核心目標很簡單：用少量精度損失，換取更小體積、更低顯存占用與更快推理速度。
對本地部署使用者來說，選對量化版本，通常比盲目追求大參數更重要。

什麼是量化

量化是指把模型參數從高精度格式（如 FP16）壓縮為更低位寬格式（如 Q8、Q4）。

可以把它理解為：

量化版本	精度/位寬	體積	品質損失	推薦場景
FP16	16 位浮點	最大	幾乎無損	研究、評測、追求極致品質
Q8_0	8 位整數	較大	幾乎無損	高配電腦，兼顧品質與效能
Q5_K_M	5 位混合	中等	輕微損失	日常主力，平衡方案
Q4_K_M	4 位混合	較小	可接受損失	通用預設，性價比高
Q3_K_M	3 位混合	很小	明顯損失	低配設備，先求能跑
Q2_K	2 位混合	最小	較大損失	極限資源場景，臨時可用

以 gemma-4:4b-q4_k_m 為例：

建議先從能穩定跑起來的版本開始，再逐步提高精度，而不是一開始就追求最大模型。

選型的本質不是「越大越好」，而是「在你的硬體條件下，達到最穩定可用的效果」。