llama.cpp Hugging Face から GGUF モデルを取得する方法

llama.cpp がどのように GGUF モデルを Hugging Face から直接ダウンロードし、互換性のあるエンドポイントを切り替え、非 GGUF 形式に変換するかを簡単に説明します。

llama.cpp は、Hugging Face の GGUF モデルで直接使用できます。最初にファイルを手動でローカルにダウンロードする必要はありません。

モデル ウェアハウス自体が GGUF ファイルを提供している場合は、次のようにコマンド ラインで -hf パラメーターを直接使用できます。

1
llama-cli -hf ggml-org/gemma-3-1b-it-GGUF

デフォルトでは、このパラメータは Hugging Face からモデルをダウンロードします。
Hugging Face API と互換性のある別のモデル ホスティング サービスを使用している場合は、環境変数 MODEL_ENDPOINT を通じてダウンロード エンドポイントを切り替えることもできます。

llama.cpp は、GGUF 形式のみを直接使用できることに注意してください。
他の形式でモデル ファイルを取得した場合は、まずウェアハウス内の convert_*.py スクリプトを使用して、それを GGUF に変換する必要があります。

Hugging Face は、llama.cpp に関連するいくつかのオンライン ツールも提供します。一般的な用途には次のようなものがあります。

  • モデルを GGUF に変換します
  • モデルを定量化し、サイズを縮小する
  • LoRA アダプターを変換する
  • GGUF メタデータをオンラインで編集する
  • llama.cpp 推論サービスを直接ホストする

最も実用的な結論だけを覚えておきたい場合は、まず GGUF をすでに提供しているモデル ウェアハウスを探し、次に llama-cli -hf <user>/<model> を直接使用します。これが通常は最も簡単な方法です。

记录并分享
Hugo で構築されています。
テーマ StackJimmy によって設計されています。