llama.cpp Hugging Face から GGUF モデルを取得する方法

llama.cpp は、Hugging Face の GGUF モデルで直接使用できます。最初にファイルを手動でローカルにダウンロードする必要はありません。

モデルウェアハウス自体が GGUF ファイルを提供している場合は、次のようにコマンドラインで -hf パラメーターを直接使用できます。

1

llama-cli -hf ggml-org/gemma-3-1b-it-GGUF

デフォルトでは、このパラメータは Hugging Face からモデルをダウンロードします。
Hugging Face API と互換性のある別のモデルホスティングサービスを使用している場合は、環境変数 MODEL_ENDPOINT を通じてダウンロードエンドポイントを切り替えることもできます。

llama.cpp は、GGUF 形式のみを直接使用できることに注意してください。
他の形式でモデルファイルを取得した場合は、まずウェアハウス内の convert_*.py スクリプトを使用して、それを GGUF に変換する必要があります。

Hugging Face は、llama.cpp に関連するいくつかのオンラインツールも提供します。一般的な用途には次のようなものがあります。

モデルを GGUF に変換します
モデルを定量化し、サイズを縮小する
LoRA アダプターを変換する
GGUF メタデータをオンラインで編集する
llama.cpp 推論サービスを直接ホストする

最も実用的な結論だけを覚えておきたい場合は、まず GGUF をすでに提供しているモデルウェアハウスを探し、次に llama-cli -hf <user>/<model> を直接使用します。これが通常は最も簡単な方法です。