Llama の GGUF モデルを選択するときの量子化の選択方法: Q8 から Q2 までの実践的な提案

直感的なアナロジーを使用して GGUF の量的レベルの違いを理解し、Q8 から Q2 までの実際的な選択の提案を提供します。

Hugging Face で Llama の GGUF モデルを選択する場合、まず量子化レベルを「解像度」として理解できます。解像度が低いほど使用する VRAM/RAM は少なくなりますが、品質は徐々に低下します。

まずは32、16、Qシリーズについて理解しましょう

  • 32: 最高品質のオリジナルの非圧縮バージョンとして理解できますが、ハードウェア要件は非常に高くなります。
  • 16: 元の品質に近く、サイズは 32 の約半分で、より実用的です。
  • Q8: ここから量子化バージョンが来ます。通常は Q8_0 または Q8 と書かれます。
  • Q6Q5Q4Q3Q2: 数値が小さいほど、リソースの使用量が低くなり、目に見える品質の低下が発生しやすくなります。

K_M / K_Sとは

K_M および K_S は、ハイブリッド量子化戦略を表します。

  • ほとんどの重みは現在の量子化レベルを使用します
  • 一部の主要部品はより高い精度を維持

したがって、同じレベルでは、Qx_K_M または Qx_K_S は、通常、純粋な Qx よりもわずかに優れています。

実用的な選択の提案

  • 十分なハードウェア: 優先順位 Q8
  • ビデオ メモリまたはメモリが不足しています: Q6 / Q5 / Q4 まで段階的にダウンします。
  • 下限の提案: Q4 を下回らないようにし、Q4_K_M を優先します。
  • Q3 以下: 品質の低下がますます顕著になります。

品質の勾配 (高から低)

  • 32
  • 16

– この点を超えると、品質は同じですが、ハードウェア要件が非常に高くなります –

  • Q8
  • Q6_K_M
  • Q6_K_S
  • Q6
  • Q5_K_M
  • Q5_K_S
  • Q5

– これが古典的なスイートスポットです –

  • Q4_K_M
  • Q4_K_S
  • Q4

– この点を下回ると、品質の低下が顕著になります –

  • Q3_K_M
  • Q3_K_S
  • Q3
  • Q2_K_M
  • Q2_K_S
  • Q2

単純な結論が必要な場合: ほとんどのシナリオでは、Q8 または Q6_K_M から開始するだけでは十分ではなく、通常は Q5 または Q4_K_M にダウングレードする方が安全です。

记录并分享
Hugo で構築されています。
テーマ StackJimmy によって設計されています。