Hugging Face で Llama の GGUF モデルを選択する場合、まず量子化レベルを「解像度」として理解できます。解像度が低いほど使用する VRAM/RAM は少なくなりますが、品質は徐々に低下します。
まずは32、16、Qシリーズについて理解しましょう
32: 最高品質のオリジナルの非圧縮バージョンとして理解できますが、ハードウェア要件は非常に高くなります。16: 元の品質に近く、サイズは32の約半分で、より実用的です。Q8: ここから量子化バージョンが来ます。通常はQ8_0またはQ8と書かれます。Q6、Q5、Q4、Q3、Q2: 数値が小さいほど、リソースの使用量が低くなり、目に見える品質の低下が発生しやすくなります。
K_M / K_Sとは
K_M および K_S は、ハイブリッド量子化戦略を表します。
- ほとんどの重みは現在の量子化レベルを使用します
- 一部の主要部品はより高い精度を維持
したがって、同じレベルでは、Qx_K_M または Qx_K_S は、通常、純粋な Qx よりもわずかに優れています。
実用的な選択の提案
- 十分なハードウェア: 優先順位
Q8。 - ビデオ メモリまたはメモリが不足しています:
Q6/Q5/Q4まで段階的にダウンします。 - 下限の提案:
Q4を下回らないようにし、Q4_K_Mを優先します。 Q3以下: 品質の低下がますます顕著になります。
品質の勾配 (高から低)
3216
– この点を超えると、品質は同じですが、ハードウェア要件が非常に高くなります –
Q8Q6_K_MQ6_K_SQ6Q5_K_MQ5_K_SQ5
– これが古典的なスイートスポットです –
Q4_K_MQ4_K_SQ4
– この点を下回ると、品質の低下が顕著になります –
Q3_K_MQ3_K_SQ3Q2_K_MQ2_K_SQ2
単純な結論が必要な場合: ほとんどのシナリオでは、Q8 または Q6_K_M から開始するだけでは十分ではなく、通常は Q5 または Q4_K_M にダウングレードする方が安全です。