<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>GGUF on KnightLi的博客</title>
        <link>https://www.knightli.com/tags/gguf/</link>
        <description>Recent content in GGUF on KnightLi的博客</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-cn</language>
        <lastBuildDate>Thu, 09 Apr 2026 11:00:07 +0800</lastBuildDate><atom:link href="https://www.knightli.com/tags/gguf/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>从 Hugging Face 下载 GGUF 模型并导入 Ollama</title>
        <link>https://www.knightli.com/2026/04/09/import-huggingface-gguf-into-ollama/</link>
        <pubDate>Thu, 09 Apr 2026 11:00:07 +0800</pubDate>
        
        <guid>https://www.knightli.com/2026/04/09/import-huggingface-gguf-into-ollama/</guid>
        <description>&lt;p&gt;如果某个模型在 Ollama 官方库里没有现成版本，或者你想使用 Hugging Face 上的特定 &lt;code&gt;GGUF&lt;/code&gt; 文件，可以手动下载后再导入 Ollama。&lt;/p&gt;
&lt;h2 id=&#34;第-1-步从-hugging-face-下载-gguf-文件&#34;&gt;第 1 步：从 Hugging Face 下载 GGUF 文件
&lt;/h2&gt;&lt;p&gt;先在 Hugging Face 上找到目标模型对应的 &lt;code&gt;GGUF&lt;/code&gt; 文件。通常会看到多个量化版本，例如：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Q4_K_M&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q5_K_M&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Q8_0&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;选择哪个版本，取决于你的显存、内存和你对速度、质量的取舍。下载后把 &lt;code&gt;.gguf&lt;/code&gt; 文件放到固定目录，后面在 &lt;code&gt;Modelfile&lt;/code&gt; 里直接引用。&lt;/p&gt;
&lt;h2 id=&#34;第-2-步编写-modelfile&#34;&gt;第 2 步：编写 Modelfile
&lt;/h2&gt;&lt;p&gt;在模型文件同目录新建一个 &lt;code&gt;Modelfile&lt;/code&gt;。最基本的写法如下：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;FROM ./model.gguf
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;如果文件名不同，就改成实际文件名，例如：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;FROM ./gemma-3-12b-it-q4_k_m.gguf
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;如果只是先跑起来，通常这一行 &lt;code&gt;FROM&lt;/code&gt; 就够了。&lt;/p&gt;
&lt;h2 id=&#34;第-3-步导入到-ollama&#34;&gt;第 3 步：导入到 Ollama
&lt;/h2&gt;&lt;p&gt;然后执行：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;ollama create myModelName -f Modelfile
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;ul&gt;
&lt;li&gt;&lt;code&gt;myModelName&lt;/code&gt; 是你希望在 Ollama 里使用的本地模型名&lt;/li&gt;
&lt;li&gt;&lt;code&gt;-f Modelfile&lt;/code&gt; 表示从这个配置文件创建模型&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;创建成功后，这个 GGUF 文件就会成为一个可直接调用的本地模型。&lt;/p&gt;
&lt;h2 id=&#34;第-4-步运行模型&#34;&gt;第 4 步：运行模型
&lt;/h2&gt;&lt;p&gt;创建完成后直接运行：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;ollama run myModelName
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;之后它的使用方式就和 &lt;code&gt;ollama pull&lt;/code&gt; 下来的模型基本一致。&lt;/p&gt;
&lt;h2 id=&#34;如何查看现有模型的-modelfile&#34;&gt;如何查看现有模型的 Modelfile
&lt;/h2&gt;&lt;p&gt;如果你不确定 &lt;code&gt;Modelfile&lt;/code&gt; 应该怎么写，可以直接查看现有模型的配置：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;ollama show --modelfile llama3.2
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;这条命令会输出 &lt;code&gt;llama3.2&lt;/code&gt; 的 &lt;code&gt;Modelfile&lt;/code&gt; 内容，适合拿来参考：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;FROM&lt;/code&gt; 应该怎么写&lt;/li&gt;
&lt;li&gt;模板和 system prompt 是怎么组织的&lt;/li&gt;
&lt;li&gt;参数是如何声明的&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;什么时候适合用这条路线&#34;&gt;什么时候适合用这条路线
&lt;/h2&gt;&lt;p&gt;下面这些场景适合从 Hugging Face 手动导入：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Ollama 官方库里还没有你要的模型&lt;/li&gt;
&lt;li&gt;你想使用某个特定量化版本&lt;/li&gt;
&lt;li&gt;你已经手动下载好了 &lt;code&gt;GGUF&lt;/code&gt; 文件&lt;/li&gt;
&lt;li&gt;你想更精细地控制模型封装方式&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果官方库里已经有现成版本，直接 &lt;code&gt;pull&lt;/code&gt; 通常更省事；但当你需要特定量化或自定义封装时，&lt;code&gt;GGUF + Modelfile&lt;/code&gt; 会更灵活。&lt;/p&gt;
&lt;h2 id=&#34;常见注意点&#34;&gt;常见注意点
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;code&gt;FROM&lt;/code&gt; 后面的路径必须和实际 &lt;code&gt;.gguf&lt;/code&gt; 文件位置一致。&lt;/li&gt;
&lt;li&gt;文件名里如果有空格或特殊字符，建议先改成更简单的名字。&lt;/li&gt;
&lt;li&gt;不同 &lt;code&gt;GGUF&lt;/code&gt; 量化版本对内存和速度影响很大，导入成功不代表运行一定流畅。&lt;/li&gt;
&lt;li&gt;如果模型是聊天模型，后续通常还需要根据其格式调整 prompt 模板，效果才会更稳定。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;结论&#34;&gt;结论
&lt;/h2&gt;&lt;p&gt;从 Hugging Face 下载 &lt;code&gt;GGUF&lt;/code&gt; 文件再导入 Ollama 并不复杂。准备好模型文件，写一个最小可用的 &lt;code&gt;Modelfile&lt;/code&gt;，再执行 &lt;code&gt;ollama create&lt;/code&gt;，就可以把第三方 &lt;code&gt;GGUF&lt;/code&gt; 模型接入 Ollama。&lt;/p&gt;
</description>
        </item>
        
    </channel>
</rss>
