<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>推理引擎 on KnightLi的博客</title>
        <link>https://www.knightli.com/tags/%E6%8E%A8%E7%90%86%E5%BC%95%E6%93%8E/</link>
        <description>Recent content in 推理引擎 on KnightLi的博客</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-cn</language>
        <lastBuildDate>Mon, 11 May 2026 08:51:37 +0800</lastBuildDate><atom:link href="https://www.knightli.com/tags/%E6%8E%A8%E7%90%86%E5%BC%95%E6%93%8E/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>本地运行 DeepSeek 4：Antirez ds4 在 Apple Silicon Mac 上的尝试</title>
        <link>https://www.knightli.com/2026/05/11/deepseek-v4-flash-ds4-metal/</link>
        <pubDate>Mon, 11 May 2026 08:51:37 +0800</pubDate>
        
        <guid>https://www.knightli.com/2026/05/11/deepseek-v4-flash-ds4-metal/</guid>
        <description>&lt;p&gt;Antirez 开源了一个新项目：&lt;code&gt;ds4&lt;/code&gt;。它不是通用 LLM 框架，而是一个面向 DeepSeek V4 Flash 的本地推理引擎，重点放在 Apple Silicon 和 Metal 后端上。&lt;/p&gt;
&lt;p&gt;项目地址：&lt;a class=&#34;link&#34; href=&#34;https://github.com/antirez/ds4&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://github.com/antirez/ds4&lt;/a&gt;&lt;/p&gt;
&lt;h2 id=&#34;ds4-是什么&#34;&gt;ds4 是什么
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;ds4&lt;/code&gt; 的目标很明确：在 Mac 上本地运行 DeepSeek V4 Flash。&lt;/p&gt;
&lt;p&gt;它当前提供三种使用方式：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;交互式 CLI。&lt;/li&gt;
&lt;li&gt;HTTP server。&lt;/li&gt;
&lt;li&gt;一个实验性的 Agent 模式。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;从定位看，它更像是一个针对特定模型深度优化的推理项目，而不是要替代 &lt;code&gt;llama.cpp&lt;/code&gt;、Ollama 或 vLLM 这类通用工具。&lt;/p&gt;
&lt;h2 id=&#34;为什么值得关注&#34;&gt;为什么值得关注
&lt;/h2&gt;&lt;p&gt;这类项目值得看，主要有三个原因。&lt;/p&gt;
&lt;p&gt;第一，作者是 Redis 作者 Antirez。他长期关注底层系统、性能和简单工具，项目风格通常比较直接。&lt;/p&gt;
&lt;p&gt;第二，DeepSeek V4 Flash 属于面向高效推理的模型方向。如果本地运行体验足够好，对 Mac 用户来说会很有吸引力。&lt;/p&gt;
&lt;p&gt;第三，&lt;code&gt;ds4&lt;/code&gt; 直接面向 Apple Metal。相比“先支持所有平台，再慢慢优化”的路线，它更像是先把一个明确场景做深。&lt;/p&gt;
&lt;h2 id=&#34;适合谁用&#34;&gt;适合谁用
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;ds4&lt;/code&gt; 更适合这几类用户：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;使用 Apple Silicon Mac。&lt;/li&gt;
&lt;li&gt;想在本地运行 DeepSeek V4 Flash。&lt;/li&gt;
&lt;li&gt;关注 Metal 推理性能。&lt;/li&gt;
&lt;li&gt;愿意尝试 alpha 阶段项目。&lt;/li&gt;
&lt;li&gt;想研究轻量推理引擎和模型运行细节。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果你的目标是稳定部署、跨平台运行、OpenAI API 兼容生态，现阶段它未必是首选。它更适合作为实验工具和技术观察对象。&lt;/p&gt;
&lt;h2 id=&#34;使用方式&#34;&gt;使用方式
&lt;/h2&gt;&lt;p&gt;项目 README 给出的基本流程是先构建，再运行。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;git clone https://github.com/antirez/ds4.git
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;cd&lt;/span&gt; ds4
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;make
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;交互式运行：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;./ds4
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;启动 HTTP server：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;./ds4 --server
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Agent 模式：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;./ds4 --agent
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;具体参数和模型文件准备方式，建议以仓库 README 为准，因为项目仍在快速变化。&lt;/p&gt;
&lt;h2 id=&#34;目前的风险&#34;&gt;目前的风险
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;ds4&lt;/code&gt; 还处在早期阶段，使用前要有预期：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;功能可能不完整。&lt;/li&gt;
&lt;li&gt;参数、模型格式和命令行行为可能变化。&lt;/li&gt;
&lt;li&gt;兼容性主要围绕 Apple Silicon 和 Metal。&lt;/li&gt;
&lt;li&gt;Agent 模式更偏实验，不适合直接用于生产流程。&lt;/li&gt;
&lt;li&gt;遇到问题时，需要自己阅读 README、issue 或源码排查。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;也就是说，它现在更像“值得动手试的开源实验”，还不是面向普通用户的一键工具。&lt;/p&gt;
&lt;h2 id=&#34;和通用推理工具的区别&#34;&gt;和通用推理工具的区别
&lt;/h2&gt;&lt;p&gt;通用推理工具通常追求模型格式、平台、后端和 API 的广泛兼容。&lt;code&gt;ds4&lt;/code&gt; 的方向更窄：围绕 DeepSeek V4 Flash 和 Metal 做本地运行。&lt;/p&gt;
&lt;p&gt;这种选择有利有弊。&lt;/p&gt;
&lt;p&gt;好处是实现可以更集中，性能和体验更容易围绕单一目标优化。代价是适用范围有限，不适合拿来运行各种不同模型，也不适合替代完整的部署平台。&lt;/p&gt;
&lt;p&gt;如果你已经在用 &lt;code&gt;llama.cpp&lt;/code&gt; 或 Ollama，&lt;code&gt;ds4&lt;/code&gt; 可以作为补充测试工具，而不是马上替换现有工作流。&lt;/p&gt;
&lt;h2 id=&#34;小结&#34;&gt;小结
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;ds4&lt;/code&gt; 的看点不在“又一个本地大模型工具”，而在于它把范围收得很窄：DeepSeek V4 Flash、Apple Silicon、Metal、本地推理。&lt;/p&gt;
&lt;p&gt;如果你手上有合适的 Mac，并且愿意折腾早期项目，可以关注它后续的性能表现、模型支持方式和 server/agent 能力演进。对于生产环境，建议继续观望，等接口和使用方式稳定后再评估。&lt;/p&gt;
&lt;h2 id=&#34;参考&#34;&gt;参考
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;GitHub 项目：&lt;a class=&#34;link&#34; href=&#34;https://github.com/antirez/ds4&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://github.com/antirez/ds4&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        
    </channel>
</rss>
