<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>GGUF on KnightLiブログ</title>
        <link>https://www.knightli.com/ja/tags/gguf/</link>
        <description>Recent content in GGUF on KnightLiブログ</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>ja</language>
        <lastBuildDate>Sun, 12 Apr 2026 09:42:36 +0800</lastBuildDate><atom:link href="https://www.knightli.com/ja/tags/gguf/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>llama-quantize の使用方法: GGUF モデル量子化の概要</title>
        <link>https://www.knightli.com/ja/2026/04/12/llama-quantize-gguf-guide/</link>
        <pubDate>Sun, 12 Apr 2026 09:42:36 +0800</pubDate>
        
        <guid>https://www.knightli.com/ja/2026/04/12/llama-quantize-gguf-guide/</guid>
        <description>&lt;p&gt;&lt;code&gt;llama-quantize&lt;/code&gt; は、&lt;code&gt;llama.cpp&lt;/code&gt; の量子化ツールで、高精度 &lt;code&gt;GGUF&lt;/code&gt; モデルをより小さい量子化バージョンに変換するために使用されます。&lt;/p&gt;
&lt;p&gt;最も一般的な用途は、&lt;code&gt;F32&lt;/code&gt;、&lt;code&gt;BF16&lt;/code&gt;、&lt;code&gt;FP16&lt;/code&gt; などの高精度モデルを、ローカル操作に適した &lt;code&gt;Q4_K_M&lt;/code&gt;、&lt;code&gt;Q5_K_M&lt;/code&gt;、&lt;code&gt;Q8_0&lt;/code&gt; などの形式に変換することです。量子化後、モデルのサイズは大幅に小さくなり、通常は推論が速くなりますが、精度はある程度低下します。&lt;/p&gt;
&lt;h2 id=&#34;基本的な使い方&#34;&gt;基本的な使い方
&lt;/h2&gt;&lt;p&gt;一般的なプロセスでは、通常、最初に元のモデルを準備し、次にそれを GGUF に変換し、最後に定量化を実行します。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;6
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;7
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;8
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;c1&#34;&gt;# install Python dependencies&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;python3 -m pip install -r requirements.txt
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;c1&#34;&gt;# convert the model to ggml FP16 format&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;python3 convert_hf_to_gguf.py ./models/mymodel/
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;c1&#34;&gt;# quantize the model to 4-bits (using Q4_K_M method)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;./llama-quantize ./models/mymodel/ggml-model-f16.gguf ./models/mymodel/ggml-model-Q4_K_M.gguf Q4_K_M
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;量子化が完了したら、&lt;code&gt;llama-cli&lt;/code&gt; を直接使用して新しい GGUF ファイルをロードできます。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;c1&#34;&gt;# start inference on a gguf model&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;./llama-cli -m ./models/mymodel/ggml-model-Q4_K_M.gguf -cnv -p &lt;span class=&#34;s2&#34;&gt;&amp;#34;You are a helpful assistant&amp;#34;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h2 id=&#34;共通パラメータ&#34;&gt;共通パラメータ
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;code&gt;--allow-requantize&lt;/code&gt;: すでに定量化されたモデルの再定量化が可能ですが、品質が大幅に低下する可能性があるため、通常は推奨されません。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;--leave-output-tensor&lt;/code&gt;: 量子化せずに出力レイヤーを保持します。ボリュームは大きくなりますが、場合によっては品質が向上する場合があります。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;--pure&lt;/code&gt;: 混合量子化をオフにして、より多くのテンソルが同じ量子化タイプを使用できるようにします。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;--imatrix&lt;/code&gt;: 重要度マトリックスを使用して量子化効果を最適化します。通常は優先順位を付ける価値があります。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;--keep-split&lt;/code&gt;: 単一ファイルにマージするのではなく、入力モデルのシャード構造を保持します。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;単に始めたい場合は、最も現実的な出発点は次のとおりです。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;./llama-quantize ./models/mymodel/ggml-model-f16.gguf ./models/mymodel/ggml-model-Q4_K_M.gguf Q4_K_M
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h2 id=&#34;定量化の選び方&#34;&gt;定量化の選び方
&lt;/h2&gt;&lt;p&gt;まず、さまざまな定量化レベルを「体積、速度、質量の間の交換」として理解することができます。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Q8_0&lt;/code&gt;: サイズは大きくなりますが、一般に品質がより安定しています。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q6_K&lt;/code&gt; / &lt;code&gt;Q5_K_M&lt;/code&gt;: 共通のバランス型オプション&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q4_K_M&lt;/code&gt;: 非常に一般的なデフォルト ファイル。通常、音量とエフェクトは比較的バランスが取れています。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q3&lt;/code&gt; / &lt;code&gt;Q2&lt;/code&gt;: リソースが非常に不足しているが、品質の低下がより明らかになるシナリオに適しています。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;与えられたデータ例から判断すると、通常、量子化レベルが低いほど、モデルは小さくなります。実際の推論では、精度が高いほど必ずしも高速であるとは限りません。そのため、通常、選択の焦点は「大きいほど良い」ではなく、「ハードウェア上で十分に安定しており、十分に経済的で、効果が許容範囲である」ことに重点を置きます。&lt;/p&gt;
&lt;h2 id=&#34;実践的なアドバイス&#34;&gt;実践的なアドバイス
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Q4_K_M&lt;/code&gt; または &lt;code&gt;Q5_K_M&lt;/code&gt; から優先順位を付ける&lt;/li&gt;
&lt;li&gt;品質がより重要な場合は、&lt;code&gt;Q6_K&lt;/code&gt; または &lt;code&gt;Q8_0&lt;/code&gt; にアップグレードしてください。&lt;/li&gt;
&lt;li&gt;マシン リソースが不足している場合は、&lt;code&gt;Q3&lt;/code&gt; または &lt;code&gt;Q2&lt;/code&gt; を試してください。&lt;/li&gt;
&lt;li&gt;異なる量子化バージョンを比較するには、常に同じバッチのテスト問題を使用することが最善です&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;一文の要約: &lt;code&gt;llama-quantize&lt;/code&gt; の中心的な価値は、単にモデルを小さくすることではなく、GGUF モデルをローカル デバイス上で実行しやすくすることです。&lt;/p&gt;
</description>
        </item>
        <item>
        <title>llama.cpp Hugging Face から GGUF モデルを取得する方法</title>
        <link>https://www.knightli.com/ja/2026/04/12/llama-cpp-hugging-face-gguf-models/</link>
        <pubDate>Sun, 12 Apr 2026 09:31:38 +0800</pubDate>
        
        <guid>https://www.knightli.com/ja/2026/04/12/llama-cpp-hugging-face-gguf-models/</guid>
        <description>&lt;p&gt;&lt;code&gt;llama.cpp&lt;/code&gt; は、Hugging Face の GGUF モデルで直接使用できます。最初にファイルを手動でローカルにダウンロードする必要はありません。&lt;/p&gt;
&lt;p&gt;モデル ウェアハウス自体が GGUF ファイルを提供している場合は、次のようにコマンド ラインで &lt;code&gt;-hf&lt;/code&gt; パラメーターを直接使用できます。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;llama-cli -hf ggml-org/gemma-3-1b-it-GGUF
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;デフォルトでは、このパラメータは Hugging Face からモデルをダウンロードします。&lt;br&gt;
Hugging Face API と互換性のある別のモデル ホスティング サービスを使用している場合は、環境変数 &lt;code&gt;MODEL_ENDPOINT&lt;/code&gt; を通じてダウンロード エンドポイントを切り替えることもできます。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;llama.cpp&lt;/code&gt; は、&lt;code&gt;GGUF&lt;/code&gt; 形式のみを直接使用できることに注意してください。&lt;br&gt;
他の形式でモデル ファイルを取得した場合は、まずウェアハウス内の &lt;code&gt;convert_*.py&lt;/code&gt; スクリプトを使用して、それを &lt;code&gt;GGUF&lt;/code&gt; に変換する必要があります。&lt;/p&gt;
&lt;p&gt;Hugging Face は、&lt;code&gt;llama.cpp&lt;/code&gt; に関連するいくつかのオンライン ツールも提供します。一般的な用途には次のようなものがあります。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;モデルを &lt;code&gt;GGUF&lt;/code&gt; に変換します&lt;/li&gt;
&lt;li&gt;モデルを定量化し、サイズを縮小する&lt;/li&gt;
&lt;li&gt;LoRA アダプターを変換する&lt;/li&gt;
&lt;li&gt;GGUF メタデータをオンラインで編集する&lt;/li&gt;
&lt;li&gt;&lt;code&gt;llama.cpp&lt;/code&gt; 推論サービスを直接ホストする&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;最も実用的な結論だけを覚えておきたい場合は、まず &lt;code&gt;GGUF&lt;/code&gt; をすでに提供しているモデル ウェアハウスを探し、次に &lt;code&gt;llama-cli -hf &amp;lt;user&amp;gt;/&amp;lt;model&amp;gt;&lt;/code&gt; を直接使用します。これが通常は最も簡単な方法です。&lt;/p&gt;
</description>
        </item>
        <item>
        <title>Llama の GGUF モデルを選択するときの量子化の選択方法: Q8 から Q2 までの実践的な提案</title>
        <link>https://www.knightli.com/ja/2026/04/11/llama-gguf-quantization-selection/</link>
        <pubDate>Sat, 11 Apr 2026 20:07:29 +0800</pubDate>
        
        <guid>https://www.knightli.com/ja/2026/04/11/llama-gguf-quantization-selection/</guid>
        <description>&lt;p&gt;Hugging Face で Llama の GGUF モデルを選択する場合、まず量子化レベルを「解像度」として理解できます。解像度が低いほど使用する VRAM/RAM は少なくなりますが、品質は徐々に低下します。&lt;/p&gt;
&lt;h2 id=&#34;まずは3216qシリーズについて理解しましょう&#34;&gt;まずは32、16、Qシリーズについて理解しましょう
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;code&gt;32&lt;/code&gt;: 最高品質のオリジナルの非圧縮バージョンとして理解できますが、ハードウェア要件は非常に高くなります。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;16&lt;/code&gt;: 元の品質に近く、サイズは &lt;code&gt;32&lt;/code&gt; の約半分で、より実用的です。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q8&lt;/code&gt;: ここから量子化バージョンが来ます。通常は &lt;code&gt;Q8_0&lt;/code&gt; または &lt;code&gt;Q8&lt;/code&gt; と書かれます。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q6&lt;/code&gt;、&lt;code&gt;Q5&lt;/code&gt;、&lt;code&gt;Q4&lt;/code&gt;、&lt;code&gt;Q3&lt;/code&gt;、&lt;code&gt;Q2&lt;/code&gt;: 数値が小さいほど、リソースの使用量が低くなり、目に見える品質の低下が発生しやすくなります。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;k_m--k_sとは&#34;&gt;&lt;code&gt;K_M&lt;/code&gt; / &lt;code&gt;K_S&lt;/code&gt;とは
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;K_M&lt;/code&gt; および &lt;code&gt;K_S&lt;/code&gt; は、ハイブリッド量子化戦略を表します。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;ほとんどの重みは現在の量子化レベルを使用します&lt;/li&gt;
&lt;li&gt;一部の主要部品はより高い精度を維持&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;したがって、同じレベルでは、&lt;code&gt;Qx_K_M&lt;/code&gt; または &lt;code&gt;Qx_K_S&lt;/code&gt; は、通常、純粋な &lt;code&gt;Qx&lt;/code&gt; よりもわずかに優れています。&lt;/p&gt;
&lt;h2 id=&#34;実用的な選択の提案&#34;&gt;実用的な選択の提案
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;十分なハードウェア: 優先順位 &lt;code&gt;Q8&lt;/code&gt;。&lt;/li&gt;
&lt;li&gt;ビデオ メモリまたはメモリが不足しています: &lt;code&gt;Q6&lt;/code&gt; / &lt;code&gt;Q5&lt;/code&gt; / &lt;code&gt;Q4&lt;/code&gt; まで段階的にダウンします。&lt;/li&gt;
&lt;li&gt;下限の提案: &lt;code&gt;Q4&lt;/code&gt; を下回らないようにし、&lt;code&gt;Q4_K_M&lt;/code&gt; を優先します。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q3&lt;/code&gt; 以下: 品質の低下がますます顕著になります。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;品質の勾配-高から低&#34;&gt;品質の勾配 (高から低)
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;code&gt;32&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;16&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&amp;ndash; この点を超えると、品質は同じですが、ハードウェア要件が非常に高くなります &amp;ndash;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Q8&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q6_K_M&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q6_K_S&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q6&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q5_K_M&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q5_K_S&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q5&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&amp;ndash; これが古典的なスイートスポットです &amp;ndash;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Q4_K_M&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q4_K_S&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q4&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&amp;ndash; この点を下回ると、品質の低下が顕著になります &amp;ndash;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Q3_K_M&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q3_K_S&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q3&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q2_K_M&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q2_K_S&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q2&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;単純な結論が必要な場合: ほとんどのシナリオでは、&lt;code&gt;Q8&lt;/code&gt; または &lt;code&gt;Q6_K_M&lt;/code&gt; から開始するだけでは十分ではなく、通常は &lt;code&gt;Q5&lt;/code&gt; または &lt;code&gt;Q4_K_M&lt;/code&gt; にダウングレードする方が安全です。&lt;/p&gt;
</description>
        </item>
        <item>
        <title>Hugging Face から GGUF モデルをダウンロードし、Ollama にインポートします。</title>
        <link>https://www.knightli.com/ja/2026/04/09/import-huggingface-gguf-into-ollama/</link>
        <pubDate>Thu, 09 Apr 2026 11:00:07 +0800</pubDate>
        
        <guid>https://www.knightli.com/ja/2026/04/09/import-huggingface-gguf-into-ollama/</guid>
        <description>&lt;p&gt;モデルの公式 Ollama ライブラリに既製バージョンがない場合、または Hugging Face で特定の &lt;code&gt;GGUF&lt;/code&gt; ファイルを使用したい場合は、手動でダウンロードして Ollama にインポートできます。&lt;/p&gt;
&lt;h2 id=&#34;ステップ-1-hugging-face-から-gguf-ファイルをダウンロードする&#34;&gt;ステップ 1: Hugging Face から GGUF ファイルをダウンロードする
&lt;/h2&gt;&lt;p&gt;まず、Hugging Face で対象モデルに対応する &lt;code&gt;GGUF&lt;/code&gt; ファイルを見つけます。次のような複数の量子化バージョンが表示されるのが一般的です。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Q4_K_M&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q5_K_M&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q8_0&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;どのバージョンを選択するかは、ビデオ メモリ、メモリ、速度と品質の選択によって異なります。ダウンロード後、&lt;code&gt;.gguf&lt;/code&gt; ファイルを固定ディレクトリに置き、後で &lt;code&gt;Modelfile&lt;/code&gt; で直接参照します。&lt;/p&gt;
&lt;h2 id=&#34;ステップ-2-モデルファイルを作成する&#34;&gt;ステップ 2: モデルファイルを作成する
&lt;/h2&gt;&lt;p&gt;モデル ファイルと同じディレクトリに新しい &lt;code&gt;Modelfile&lt;/code&gt; を作成します。最も基本的な書き方は次のとおりです。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;FROM ./model.gguf
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;ファイル名が異なる場合は、次のように実際のファイル名に変更します。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;FROM ./gemma-3-12b-it-q4_k_m.gguf
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;最初に実行したいだけの場合は、通常、&lt;code&gt;FROM&lt;/code&gt; 行で十分です。&lt;/p&gt;
&lt;h2 id=&#34;ステップ-3-ollama-にインポートする&#34;&gt;ステップ 3: Ollama にインポートする
&lt;/h2&gt;&lt;p&gt;次に、以下を実行します。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;ollama create myModelName -f Modelfile
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;ul&gt;
&lt;li&gt;&lt;code&gt;myModelName&lt;/code&gt; は、Ollama で使用するローカル モデル名です。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;-f Modelfile&lt;/code&gt; は、この構成ファイルからモデルを作成することを意味します&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;作成が成功すると、この GGUF ファイルは直接呼び出すことができるローカル モデルになります。&lt;/p&gt;
&lt;h2 id=&#34;ステップ-4-モデルを実行する&#34;&gt;ステップ 4: モデルを実行する
&lt;/h2&gt;&lt;p&gt;作成後に直接実行します。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;ollama run myModelName
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;以降の使い方は基本的に&lt;code&gt;ollama pull&lt;/code&gt;のモデルと同じです。&lt;/p&gt;
&lt;h2 id=&#34;既存のモデルのモデルファイルを表示する方法&#34;&gt;既存のモデルのモデルファイルを表示する方法
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;Modelfile&lt;/code&gt; の書き方がわからない場合は、既存のモデルの構成を直接表示できます。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;ollama show --modelfile llama3.2
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;このコマンドは、参照に適した &lt;code&gt;llama3.2&lt;/code&gt; の &lt;code&gt;Modelfile&lt;/code&gt; コンテンツを出力します。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;FROM&lt;/code&gt;の書き方&lt;/li&gt;
&lt;li&gt;テンプレートとシステム プロンプトはどのように構成されていますか?&lt;/li&gt;
&lt;li&gt;パラメータの宣言方法&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;このルートを使用するのが適切なのはどのような場合ですか&#34;&gt;このルートを使用するのが適切なのはどのような場合ですか?
&lt;/h2&gt;&lt;p&gt;次のシナリオは、Hugging Face からの手動インポートに適しています。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;必要なモデルは、公式 Ollama ライブラリではまだ利用できません。&lt;/li&gt;
&lt;li&gt;特定の量子化バージョンを使用したい場合&lt;/li&gt;
&lt;li&gt;&lt;code&gt;GGUF&lt;/code&gt; ファイルを手動でダウンロードしました&lt;/li&gt;
&lt;li&gt;モデルのパッケージ化方法をよりきめ細かく制御したい&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;公式ライブラリに既製のバージョンがある場合は、通常、&lt;code&gt;pull&lt;/code&gt; を直接使用する方が簡単です。ただし、特定の量子化やカスタム パッケージングが必要な場合は、&lt;code&gt;GGUF + Modelfile&lt;/code&gt; の方がより柔軟です。&lt;/p&gt;
&lt;h2 id=&#34;共通の注意点&#34;&gt;共通の注意点
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;code&gt;FROM&lt;/code&gt; の後のパスは、実際の &lt;code&gt;.gguf&lt;/code&gt; ファイルの場所と一致している必要があります。&lt;/li&gt;
&lt;li&gt;ファイル名にスペースや特殊文字が含まれている場合は、最初に簡単な名前に変更することをお勧めします。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;GGUF&lt;/code&gt; の量子化バージョンが異なると、メモリと速度に大きな影響を与えます。インポートが成功しても、操作がスムーズに行われるとは限りません。&lt;/li&gt;
&lt;li&gt;モデルがチャット モデルの場合、効果がより安定するように、後でその形式に応じてプロンプト テンプレートを調整する必要があります。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;結論は&#34;&gt;結論は
&lt;/h2&gt;&lt;p&gt;Hugging Face から &lt;code&gt;GGUF&lt;/code&gt; ファイルをダウンロードして Ollama にインポートするのは複雑ではありません。モデル ファイルを準備し、使用可能な最小限の &lt;code&gt;Modelfile&lt;/code&gt; を書き込み、その後 &lt;code&gt;ollama create&lt;/code&gt; を実行してサードパーティの &lt;code&gt;GGUF&lt;/code&gt; モデルを Ollama に接続します。&lt;/p&gt;
</description>
        </item>
        
    </channel>
</rss>
