GGUF on KnightLiブログ

llama-quantize の使用方法: GGUF モデル量子化の概要

Sun, 12 Apr 2026 09:42:36 +0800

llama-quantize は、llama.cpp の量子化ツールで、高精度 GGUF モデルをより小さい量子化バージョンに変換するために使用されます。

最も一般的な用途は、F32、BF16、FP16 などの高精度モデルを、ローカル操作に適した Q4_K_M、Q5_K_M、Q8_0 などの形式に変換することです。量子化後、モデルのサイズは大幅に小さくなり、通常は推論が速くなりますが、精度はある程度低下します。

基本的な使い方

一般的なプロセスでは、通常、最初に元のモデルを準備し、次にそれを GGUF に変換し、最後に定量化を実行します。

# install Python dependencies
python3 -m pip install -r requirements.txt

# convert the model to ggml FP16 format
python3 convert_hf_to_gguf.py ./models/mymodel/

# quantize the model to 4-bits (using Q4_K_M method)
./llama-quantize ./models/mymodel/ggml-model-f16.gguf ./models/mymodel/ggml-model-Q4_K_M.gguf Q4_K_M

量子化が完了したら、llama-cli を直接使用して新しい GGUF ファイルをロードできます。

1
2

# start inference on a gguf model
./llama-cli -m ./models/mymodel/ggml-model-Q4_K_M.gguf -cnv -p "You are a helpful assistant"

共通パラメータ

--allow-requantize: すでに定量化されたモデルの再定量化が可能ですが、品質が大幅に低下する可能性があるため、通常は推奨されません。
--leave-output-tensor: 量子化せずに出力レイヤーを保持します。ボリュームは大きくなりますが、場合によっては品質が向上する場合があります。
--pure: 混合量子化をオフにして、より多くのテンソルが同じ量子化タイプを使用できるようにします。
--imatrix: 重要度マトリックスを使用して量子化効果を最適化します。通常は優先順位を付ける価値があります。
--keep-split: 単一ファイルにマージするのではなく、入力モデルのシャード構造を保持します。

単に始めたい場合は、最も現実的な出発点は次のとおりです。

`1`	`./llama-quantize ./models/mymodel/ggml-model-f16.gguf ./models/mymodel/ggml-model-Q4_K_M.gguf Q4_K_M`

定量化の選び方

まず、さまざまな定量化レベルを「体積、速度、質量の間の交換」として理解することができます。

Q8_0: サイズは大きくなりますが、一般に品質がより安定しています。
Q6_K / Q5_K_M: 共通のバランス型オプション
Q4_K_M: 非常に一般的なデフォルトファイル。通常、音量とエフェクトは比較的バランスが取れています。
Q3 / Q2: リソースが非常に不足しているが、品質の低下がより明らかになるシナリオに適しています。

与えられたデータ例から判断すると、通常、量子化レベルが低いほど、モデルは小さくなります。実際の推論では、精度が高いほど必ずしも高速であるとは限りません。そのため、通常、選択の焦点は「大きいほど良い」ではなく、「ハードウェア上で十分に安定しており、十分に経済的で、効果が許容範囲である」ことに重点を置きます。

実践的なアドバイス

Q4_K_M または Q5_K_M から優先順位を付ける
品質がより重要な場合は、Q6_K または Q8_0 にアップグレードしてください。
マシンリソースが不足している場合は、Q3 または Q2 を試してください。
異なる量子化バージョンを比較するには、常に同じバッチのテスト問題を使用することが最善です

一文の要約: llama-quantize の中心的な価値は、単にモデルを小さくすることではなく、GGUF モデルをローカルデバイス上で実行しやすくすることです。

llama.cpp Hugging Face から GGUF モデルを取得する方法

Sun, 12 Apr 2026 09:31:38 +0800

llama.cpp は、Hugging Face の GGUF モデルで直接使用できます。最初にファイルを手動でローカルにダウンロードする必要はありません。

モデルウェアハウス自体が GGUF ファイルを提供している場合は、次のようにコマンドラインで -hf パラメーターを直接使用できます。

`1`	`llama-cli -hf ggml-org/gemma-3-1b-it-GGUF`

デフォルトでは、このパラメータは Hugging Face からモデルをダウンロードします。
Hugging Face API と互換性のある別のモデルホスティングサービスを使用している場合は、環境変数 MODEL_ENDPOINT を通じてダウンロードエンドポイントを切り替えることもできます。

llama.cpp は、GGUF 形式のみを直接使用できることに注意してください。
他の形式でモデルファイルを取得した場合は、まずウェアハウス内の convert_*.py スクリプトを使用して、それを GGUF に変換する必要があります。

Hugging Face は、llama.cpp に関連するいくつかのオンラインツールも提供します。一般的な用途には次のようなものがあります。

モデルを GGUF に変換します
モデルを定量化し、サイズを縮小する
LoRA アダプターを変換する
GGUF メタデータをオンラインで編集する
llama.cpp 推論サービスを直接ホストする

最も実用的な結論だけを覚えておきたい場合は、まず GGUF をすでに提供しているモデルウェアハウスを探し、次に llama-cli -hf <user>/<model> を直接使用します。これが通常は最も簡単な方法です。

Llama の GGUF モデルを選択するときの量子化の選択方法: Q8 から Q2 までの実践的な提案

Sat, 11 Apr 2026 20:07:29 +0800

Hugging Face で Llama の GGUF モデルを選択する場合、まず量子化レベルを「解像度」として理解できます。解像度が低いほど使用する VRAM/RAM は少なくなりますが、品質は徐々に低下します。

まずは32、16、Qシリーズについて理解しましょう

32: 最高品質のオリジナルの非圧縮バージョンとして理解できますが、ハードウェア要件は非常に高くなります。
16: 元の品質に近く、サイズは 32 の約半分で、より実用的です。
Q8: ここから量子化バージョンが来ます。通常は Q8_0 または Q8 と書かれます。
Q6、Q5、Q4、Q3、Q2: 数値が小さいほど、リソースの使用量が低くなり、目に見える品質の低下が発生しやすくなります。

`K_M` / `K_S`とは

K_M および K_S は、ハイブリッド量子化戦略を表します。

ほとんどの重みは現在の量子化レベルを使用します
一部の主要部品はより高い精度を維持

したがって、同じレベルでは、Qx_K_M または Qx_K_S は、通常、純粋な Qx よりもわずかに優れています。

実用的な選択の提案

十分なハードウェア: 優先順位 Q8。
ビデオメモリまたはメモリが不足しています: Q6 / Q5 / Q4 まで段階的にダウンします。
下限の提案: Q4 を下回らないようにし、Q4_K_M を優先します。
Q3 以下: 品質の低下がますます顕著になります。

品質の勾配 (高から低)

32
16

– この点を超えると、品質は同じですが、ハードウェア要件が非常に高くなります –

Q8
Q6_K_M
Q6_K_S
Q6
Q5_K_M
Q5_K_S
Q5

– これが古典的なスイートスポットです –

Q4_K_M
Q4_K_S
Q4

– この点を下回ると、品質の低下が顕著になります –

Q3_K_M
Q3_K_S
Q3
Q2_K_M
Q2_K_S
Q2

単純な結論が必要な場合: ほとんどのシナリオでは、Q8 または Q6_K_M から開始するだけでは十分ではなく、通常は Q5 または Q4_K_M にダウングレードする方が安全です。

Hugging Face から GGUF モデルをダウンロードし、Ollama にインポートします。

Thu, 09 Apr 2026 11:00:07 +0800

モデルの公式 Ollama ライブラリに既製バージョンがない場合、または Hugging Face で特定の GGUF ファイルを使用したい場合は、手動でダウンロードして Ollama にインポートできます。

ステップ 1: Hugging Face から GGUF ファイルをダウンロードする

まず、Hugging Face で対象モデルに対応する GGUF ファイルを見つけます。次のような複数の量子化バージョンが表示されるのが一般的です。

Q4_K_M
Q5_K_M
Q8_0

どのバージョンを選択するかは、ビデオメモリ、メモリ、速度と品質の選択によって異なります。ダウンロード後、.gguf ファイルを固定ディレクトリに置き、後で Modelfile で直接参照します。

ステップ 2: モデルファイルを作成する

モデルファイルと同じディレクトリに新しい Modelfile を作成します。最も基本的な書き方は次のとおりです。

`1`	`FROM ./model.gguf`

ファイル名が異なる場合は、次のように実際のファイル名に変更します。

`1`	`FROM ./gemma-3-12b-it-q4_k_m.gguf`

最初に実行したいだけの場合は、通常、FROM 行で十分です。

ステップ 3: Ollama にインポートする

次に、以下を実行します。

`1`	`ollama create myModelName -f Modelfile`

myModelName は、Ollama で使用するローカルモデル名です。
-f Modelfile は、この構成ファイルからモデルを作成することを意味します

作成が成功すると、この GGUF ファイルは直接呼び出すことができるローカルモデルになります。

ステップ 4: モデルを実行する

作成後に直接実行します。

`1`	`ollama run myModelName`

以降の使い方は基本的にollama pullのモデルと同じです。

既存のモデルのモデルファイルを表示する方法

Modelfile の書き方がわからない場合は、既存のモデルの構成を直接表示できます。

`1`	`ollama show --modelfile llama3.2`

このコマンドは、参照に適した llama3.2 の Modelfile コンテンツを出力します。

FROMの書き方
テンプレートとシステムプロンプトはどのように構成されていますか?
パラメータの宣言方法

このルートを使用するのが適切なのはどのような場合ですか?

次のシナリオは、Hugging Face からの手動インポートに適しています。

必要なモデルは、公式 Ollama ライブラリではまだ利用できません。
特定の量子化バージョンを使用したい場合
GGUF ファイルを手動でダウンロードしました
モデルのパッケージ化方法をよりきめ細かく制御したい

公式ライブラリに既製のバージョンがある場合は、通常、pull を直接使用する方が簡単です。ただし、特定の量子化やカスタムパッケージングが必要な場合は、GGUF + Modelfile の方がより柔軟です。

共通の注意点

FROM の後のパスは、実際の .gguf ファイルの場所と一致している必要があります。
ファイル名にスペースや特殊文字が含まれている場合は、最初に簡単な名前に変更することをお勧めします。
GGUF の量子化バージョンが異なると、メモリと速度に大きな影響を与えます。インポートが成功しても、操作がスムーズに行われるとは限りません。
モデルがチャットモデルの場合、効果がより安定するように、後でその形式に応じてプロンプトテンプレートを調整する必要があります。

結論は

Hugging Face から GGUF ファイルをダウンロードして Ollama にインポートするのは複雑ではありません。モデルファイルを準備し、使用可能な最小限の Modelfile を書き込み、その後 ollama create を実行してサードパーティの GGUF モデルを Ollama に接続します。