Llama.cpp on KnightLi的博客

Llama.cpp on KnightLi的博客 https://www.knightli.com/tags/llama.cpp/ Recent content in Llama.cpp on KnightLi的博客 Hugo -- gohugo.io zh-cn Fri, 10 Apr 2026 22:54:17 +0800 Gemma 4 本地调用指南：从一键运行到开发集成 https://www.knightli.com/2026/04/10/gemma4-local-runtime-options/ Fri, 10 Apr 2026 22:54:17 +0800 https://www.knightli.com/2026/04/10/gemma4-local-runtime-options/ <p>如果你想在本地调用 Gemma 4（Google 2026 年发布的新一代开源模型），可以按需求从这四类方案里选。</p> <h2 id="1-最快上手ollama推荐">1) 最快上手：Ollama（推荐） </h2><p>这是门槛最低的方式，适合快速测试、日常对话和本地 API 调用。</p> <div class="highlight"><div class="chroma"> <table class="lntable"><tr><td class="lntd"> <pre tabindex="0" class="chroma"><code><span class="lnt">1 </span></code></pre></td> <td class="lntd"> <pre tabindex="0" class="chroma"><code class="language-bash" data-lang="bash"><span class="line"><span class="cl">ollama run gemma4 </span></span></code></pre></td></tr></table> </div> </div><p>特点：</p> <ul> <li>Win/Mac/Linux 都可用</li> <li>自动处理硬件加速</li> <li>提供兼容 OpenAI 风格的本地 API</li> </ul> <h2 id="2-图形界面lm-studio--unsloth-studio">2) 图形界面：LM Studio / Unsloth Studio </h2><p>如果你更习惯桌面 GUI（类似 ChatGPT），这两类工具更顺手。</p> <ul> <li>LM Studio：可直接搜索和下载 Hugging Face 上的 Gemma 4 量化模型（如 4-bit、8-bit），并查看资源占用。</li> <li>Unsloth Studio：除了推理，也支持低显存微调。对 6GB-8GB 显存机器更友好。</li> </ul> <h2 id="3-低配与极致控制llamacpp">3) 低配与极致控制：llama.cpp </h2><p>适合老机器、纯 CPU 场景，或希望深度控制推理参数的用户。</p> <p>你可以使用 <code>.gguf</code> 模型文件配合量化版本，在更低硬件门槛下运行 Gemma 4。</p> <h2 id="4-开发集成transformers--vllm">4) 开发集成：Transformers / vLLM </h2><p>如果你要把 Gemma 4 接进自己的应用：</p> <ul> <li>Transformers：适合 Python 项目内直接加载模型</li> <li>vLLM：适合高性能 GPU 场景和高吞吐推理服务</li> </ul> <h2 id="快速选型">快速选型 </h2><table> <thead> <tr> <th>需求</th> <th>推荐工具</th> <th>硬件门槛</th> </tr> </thead> <tbody> <tr> <td>我只想马上跑起来</td> <td>Ollama</td> <td>低（自动适配）</td> </tr> <tr> <td>我更喜欢图形界面</td> <td>LM Studio</td> <td>中</td> </tr> <tr> <td>显存很紧张（6GB-8GB）</td> <td>Unsloth / llama.cpp</td> <td>低</td> </tr> <tr> <td>我要做本地 AI 应用开发</td> <td>Ollama / Transformers / vLLM</td> <td>中到高</td> </tr> <tr> <td>我要做微调训练</td> <td>Unsloth Studio</td> <td>中到高</td> </tr> </tbody> </table> <h2 id="模型尺寸建议">模型尺寸建议 </h2><p>Gemma 4 有多种尺寸（如 E2B、E4B、31B）。</p> <ul> <li>普通办公本优先选量化后的 E2B / E4B</li> <li>显存更充足时再尝试更大版本</li> </ul>