<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>Llama.cpp on KnightLi的博客</title>
        <link>https://www.knightli.com/tags/llama.cpp/</link>
        <description>Recent content in Llama.cpp on KnightLi的博客</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-cn</language>
        <lastBuildDate>Fri, 10 Apr 2026 22:54:17 +0800</lastBuildDate><atom:link href="https://www.knightli.com/tags/llama.cpp/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>Gemma 4 本地调用指南：从一键运行到开发集成</title>
        <link>https://www.knightli.com/2026/04/10/gemma4-local-runtime-options/</link>
        <pubDate>Fri, 10 Apr 2026 22:54:17 +0800</pubDate>
        
        <guid>https://www.knightli.com/2026/04/10/gemma4-local-runtime-options/</guid>
        <description>&lt;p&gt;如果你想在本地调用 Gemma 4（Google 2026 年发布的新一代开源模型），可以按需求从这四类方案里选。&lt;/p&gt;
&lt;h2 id=&#34;1-最快上手ollama推荐&#34;&gt;1) 最快上手：Ollama（推荐）
&lt;/h2&gt;&lt;p&gt;这是门槛最低的方式，适合快速测试、日常对话和本地 API 调用。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;ollama run gemma4
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;特点：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Win/Mac/Linux 都可用&lt;/li&gt;
&lt;li&gt;自动处理硬件加速&lt;/li&gt;
&lt;li&gt;提供兼容 OpenAI 风格的本地 API&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;2-图形界面lm-studio--unsloth-studio&#34;&gt;2) 图形界面：LM Studio / Unsloth Studio
&lt;/h2&gt;&lt;p&gt;如果你更习惯桌面 GUI（类似 ChatGPT），这两类工具更顺手。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;LM Studio：可直接搜索和下载 Hugging Face 上的 Gemma 4 量化模型（如 4-bit、8-bit），并查看资源占用。&lt;/li&gt;
&lt;li&gt;Unsloth Studio：除了推理，也支持低显存微调。对 6GB-8GB 显存机器更友好。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;3-低配与极致控制llamacpp&#34;&gt;3) 低配与极致控制：llama.cpp
&lt;/h2&gt;&lt;p&gt;适合老机器、纯 CPU 场景，或希望深度控制推理参数的用户。&lt;/p&gt;
&lt;p&gt;你可以使用 &lt;code&gt;.gguf&lt;/code&gt; 模型文件配合量化版本，在更低硬件门槛下运行 Gemma 4。&lt;/p&gt;
&lt;h2 id=&#34;4-开发集成transformers--vllm&#34;&gt;4) 开发集成：Transformers / vLLM
&lt;/h2&gt;&lt;p&gt;如果你要把 Gemma 4 接进自己的应用：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Transformers：适合 Python 项目内直接加载模型&lt;/li&gt;
&lt;li&gt;vLLM：适合高性能 GPU 场景和高吞吐推理服务&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;快速选型&#34;&gt;快速选型
&lt;/h2&gt;&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;需求&lt;/th&gt;
          &lt;th&gt;推荐工具&lt;/th&gt;
          &lt;th&gt;硬件门槛&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;我只想马上跑起来&lt;/td&gt;
          &lt;td&gt;Ollama&lt;/td&gt;
          &lt;td&gt;低（自动适配）&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;我更喜欢图形界面&lt;/td&gt;
          &lt;td&gt;LM Studio&lt;/td&gt;
          &lt;td&gt;中&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;显存很紧张（6GB-8GB）&lt;/td&gt;
          &lt;td&gt;Unsloth / llama.cpp&lt;/td&gt;
          &lt;td&gt;低&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;我要做本地 AI 应用开发&lt;/td&gt;
          &lt;td&gt;Ollama / Transformers / vLLM&lt;/td&gt;
          &lt;td&gt;中到高&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;我要做微调训练&lt;/td&gt;
          &lt;td&gt;Unsloth Studio&lt;/td&gt;
          &lt;td&gt;中到高&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id=&#34;模型尺寸建议&#34;&gt;模型尺寸建议
&lt;/h2&gt;&lt;p&gt;Gemma 4 有多种尺寸（如 E2B、E4B、31B）。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;普通办公本优先选量化后的 E2B / E4B&lt;/li&gt;
&lt;li&gt;显存更充足时再尝试更大版本&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        
    </channel>
</rss>
