llama.cpp は、Hugging Face の GGUF モデルで直接使用できます。最初にファイルを手動でローカルにダウンロードする必要はありません。
モデル ウェアハウス自体が GGUF ファイルを提供している場合は、次のようにコマンド ラインで -hf パラメーターを直接使用できます。
|
|
デフォルトでは、このパラメータは Hugging Face からモデルをダウンロードします。
Hugging Face API と互換性のある別のモデル ホスティング サービスを使用している場合は、環境変数 MODEL_ENDPOINT を通じてダウンロード エンドポイントを切り替えることもできます。
llama.cpp は、GGUF 形式のみを直接使用できることに注意してください。
他の形式でモデル ファイルを取得した場合は、まずウェアハウス内の convert_*.py スクリプトを使用して、それを GGUF に変換する必要があります。
Hugging Face は、llama.cpp に関連するいくつかのオンライン ツールも提供します。一般的な用途には次のようなものがあります。
- モデルを
GGUFに変換します - モデルを定量化し、サイズを縮小する
- LoRA アダプターを変換する
- GGUF メタデータをオンラインで編集する
llama.cpp推論サービスを直接ホストする
最も実用的な結論だけを覚えておきたい場合は、まず GGUF をすでに提供しているモデル ウェアハウスを探し、次に llama-cli -hf <user>/<model> を直接使用します。これが通常は最も簡単な方法です。