定量化する on KnightLiブログ

llama-quantize の使用方法: GGUF モデル量子化の概要

Sun, 12 Apr 2026 09:42:36 +0800

llama-quantize は、llama.cpp の量子化ツールで、高精度 GGUF モデルをより小さい量子化バージョンに変換するために使用されます。

最も一般的な用途は、F32、BF16、FP16 などの高精度モデルを、ローカル操作に適した Q4_K_M、Q5_K_M、Q8_0 などの形式に変換することです。量子化後、モデルのサイズは大幅に小さくなり、通常は推論が速くなりますが、精度はある程度低下します。

基本的な使い方

一般的なプロセスでは、通常、最初に元のモデルを準備し、次にそれを GGUF に変換し、最後に定量化を実行します。

# install Python dependencies
python3 -m pip install -r requirements.txt

# convert the model to ggml FP16 format
python3 convert_hf_to_gguf.py ./models/mymodel/

# quantize the model to 4-bits (using Q4_K_M method)
./llama-quantize ./models/mymodel/ggml-model-f16.gguf ./models/mymodel/ggml-model-Q4_K_M.gguf Q4_K_M

量子化が完了したら、llama-cli を直接使用して新しい GGUF ファイルをロードできます。

1
2

# start inference on a gguf model
./llama-cli -m ./models/mymodel/ggml-model-Q4_K_M.gguf -cnv -p "You are a helpful assistant"

共通パラメータ

--allow-requantize: すでに定量化されたモデルの再定量化が可能ですが、品質が大幅に低下する可能性があるため、通常は推奨されません。
--leave-output-tensor: 量子化せずに出力レイヤーを保持します。ボリュームは大きくなりますが、場合によっては品質が向上する場合があります。
--pure: 混合量子化をオフにして、より多くのテンソルが同じ量子化タイプを使用できるようにします。
--imatrix: 重要度マトリックスを使用して量子化効果を最適化します。通常は優先順位を付ける価値があります。
--keep-split: 単一ファイルにマージするのではなく、入力モデルのシャード構造を保持します。

単に始めたい場合は、最も現実的な出発点は次のとおりです。

`1`	`./llama-quantize ./models/mymodel/ggml-model-f16.gguf ./models/mymodel/ggml-model-Q4_K_M.gguf Q4_K_M`

定量化の選び方

まず、さまざまな定量化レベルを「体積、速度、質量の間の交換」として理解することができます。

Q8_0: サイズは大きくなりますが、一般に品質がより安定しています。
Q6_K / Q5_K_M: 共通のバランス型オプション
Q4_K_M: 非常に一般的なデフォルトファイル。通常、音量とエフェクトは比較的バランスが取れています。
Q3 / Q2: リソースが非常に不足しているが、品質の低下がより明らかになるシナリオに適しています。

与えられたデータ例から判断すると、通常、量子化レベルが低いほど、モデルは小さくなります。実際の推論では、精度が高いほど必ずしも高速であるとは限りません。そのため、通常、選択の焦点は「大きいほど良い」ではなく、「ハードウェア上で十分に安定しており、十分に経済的で、効果が許容範囲である」ことに重点を置きます。

実践的なアドバイス

Q4_K_M または Q5_K_M から優先順位を付ける
品質がより重要な場合は、Q6_K または Q8_0 にアップグレードしてください。
マシンリソースが不足している場合は、Q3 または Q2 を試してください。
異なる量子化バージョンを比較するには、常に同じバッチのテスト問題を使用することが最善です

一文の要約: llama-quantize の中心的な価値は、単にモデルを小さくすることではなく、GGUF モデルをローカルデバイス上で実行しやすくすることです。

Llama の GGUF モデルを選択するときの量子化の選択方法: Q8 から Q2 までの実践的な提案

Sat, 11 Apr 2026 20:07:29 +0800

Hugging Face で Llama の GGUF モデルを選択する場合、まず量子化レベルを「解像度」として理解できます。解像度が低いほど使用する VRAM/RAM は少なくなりますが、品質は徐々に低下します。

まずは32、16、Qシリーズについて理解しましょう

32: 最高品質のオリジナルの非圧縮バージョンとして理解できますが、ハードウェア要件は非常に高くなります。
16: 元の品質に近く、サイズは 32 の約半分で、より実用的です。
Q8: ここから量子化バージョンが来ます。通常は Q8_0 または Q8 と書かれます。
Q6、Q5、Q4、Q3、Q2: 数値が小さいほど、リソースの使用量が低くなり、目に見える品質の低下が発生しやすくなります。

`K_M` / `K_S`とは

K_M および K_S は、ハイブリッド量子化戦略を表します。

ほとんどの重みは現在の量子化レベルを使用します
一部の主要部品はより高い精度を維持

したがって、同じレベルでは、Qx_K_M または Qx_K_S は、通常、純粋な Qx よりもわずかに優れています。

実用的な選択の提案

十分なハードウェア: 優先順位 Q8。
ビデオメモリまたはメモリが不足しています: Q6 / Q5 / Q4 まで段階的にダウンします。
下限の提案: Q4 を下回らないようにし、Q4_K_M を優先します。
Q3 以下: 品質の低下がますます顕著になります。

品質の勾配 (高から低)

32
16

– この点を超えると、品質は同じですが、ハードウェア要件が非常に高くなります –

Q8
Q6_K_M
Q6_K_S
Q6
Q5_K_M
Q5_K_S
Q5

– これが古典的なスイートスポットです –

Q4_K_M
Q4_K_S
Q4

– この点を下回ると、品質の低下が顕著になります –

Q3_K_M
Q3_K_S
Q3
Q2_K_M
Q2_K_S
Q2

単純な結論が必要な場合: ほとんどのシナリオでは、Q8 または Q6_K_M から開始するだけでは十分ではなく、通常は Q5 または Q4_K_M にダウングレードする方が安全です。

大規模モデルの定量化の詳細な説明: FP16、Q8、Q5、Q4 ～ Q2 を選択するにはどうすればよいですか?

Sun, 05 Apr 2026 22:09:11 +0800

量子化の中心的な目標は単純です。サイズを小さくし、メモリ使用量を減らし、推論速度を速くする代わりに、精度の損失を小さくすることです。
ローカル展開ユーザーにとって、多くの場合、盲目的に大きなパラメータを追求するよりも、適切な定量的バージョンを選択することの方が重要です。

定量化とは何ですか

量子化とは、モデルパラメーターを高精度形式 (FP16 など) からより低いビット幅形式 (Q8、Q4 など) に圧縮することを指します。

それは次のように理解できます。

オリジナルモデル: 高精度の写真のように鮮明ですが、ファイルサイズが大きくなります。
量子化モデル: 圧縮された写真と同様に、細部はわずかに失われますが、軽量かつ高速です。

一般的な定量バージョンの比較

量化版本	精度/位宽	体积	质量损失	推荐场景
FP16	16 位浮点	最大	几乎无损	研究、评测、追求极致质量
Q8_0	8 位整数	较大	几乎无损	高配电脑，兼顾质量与性能
Q5_K_M	5 位混合	中等	轻微损失	日常主力，平衡方案
Q4_K_M	4 位混合	较小	可接受损失	通用默认，性价比高
Q3_K_M	3 位混合	很小	明显损失	低配设备，能跑优先
Q2_K	2 位混合	最小	较大损失	极限资源场景，临时可用

定量的な命名規則

gemma-4:4b-q4_k_m を例として取り上げます。

gemma-4:4b: モデル名とパラメータスケール。
q4: 4 ビット量子化。
k: K-quants (改良された量子化方法)。
m：中（中レベル、s/小、l/大が共通）。

ビデオメモリに基づいてモデルを素早く選択する方法

内存/显存	推荐量化
4 GB	Q3_K_M / Q2_K
8 GB	Q4_K_M
16 GB	Q5_K_M / Q8_0
32 GB+	FP16 / Q8_0

最初から最大のモデルを追求するのではなく、安定して動作するバージョンから始めて、徐々に精度を向上させることをお勧めします。

実践的な提案

デフォルトでは、Q4_K_M から開始され、最初に実際のタスクの効果を確認します。
回答の品質が十分でない場合は、Q5_K_M または Q8_0 にアップグレードしてください。
主なボトルネックがビデオメモリまたは速度である場合は、Q3_K_M にドロップします。
定量化バージョンに切り替えるたびに、同じバッチのテスト問題を比較に使用してください。

結論は

品質第一: FP16 または Q8_0。
バランス優先度: Q5_K_M。
共通のデフォルト: Q4_K_M。
ローエンドポケット: Q3_K_M または Q2_K。

モデル選択の本質は、「大きいほど良い」ではなく、「ハードウェア条件下で最も安定して使用可能な効果を実現する」ことです。