<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>Inference Engine on KnightLi Blog</title>
        <link>https://www.knightli.com/es/tags/inference-engine/</link>
        <description>Recent content in Inference Engine on KnightLi Blog</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>es</language>
        <lastBuildDate>Mon, 11 May 2026 08:51:37 +0800</lastBuildDate><atom:link href="https://www.knightli.com/es/tags/inference-engine/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>Ejecutar DeepSeek 4 en local: el experimento ds4 de Antirez en Apple Silicon Mac</title>
        <link>https://www.knightli.com/es/2026/05/11/deepseek-v4-flash-ds4-metal/</link>
        <pubDate>Mon, 11 May 2026 08:51:37 +0800</pubDate>
        
        <guid>https://www.knightli.com/es/2026/05/11/deepseek-v4-flash-ds4-metal/</guid>
        <description>&lt;p&gt;Antirez ha publicado un nuevo proyecto open source: &lt;code&gt;ds4&lt;/code&gt;. No es un framework LLM de propósito general, sino un motor de inferencia local para DeepSeek V4 Flash, centrado en Apple Silicon y el backend Metal.&lt;/p&gt;
&lt;p&gt;URL del proyecto: &lt;a class=&#34;link&#34; href=&#34;https://github.com/antirez/ds4&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://github.com/antirez/ds4&lt;/a&gt;&lt;/p&gt;
&lt;h2 id=&#34;qué-es-ds4&#34;&gt;Qué es ds4
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;ds4&lt;/code&gt; tiene un objetivo muy claro: ejecutar DeepSeek V4 Flash localmente en un Mac.&lt;/p&gt;
&lt;p&gt;Actualmente ofrece tres formas de uso:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;CLI interactiva.&lt;/li&gt;
&lt;li&gt;HTTP server.&lt;/li&gt;
&lt;li&gt;Un modo Agent experimental.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Por su posicionamiento, se parece más a un proyecto de inferencia profundamente optimizado para un modelo específico que a un reemplazo de herramientas generales como &lt;code&gt;llama.cpp&lt;/code&gt;, Ollama o vLLM.&lt;/p&gt;
&lt;h2 id=&#34;por-qué-merece-atención&#34;&gt;Por qué merece atención
&lt;/h2&gt;&lt;p&gt;Hay tres razones principales por las que este tipo de proyecto merece atención.&lt;/p&gt;
&lt;p&gt;La primera es que su autor es Antirez, creador de Redis. Lleva mucho tiempo interesado en sistemas de bajo nivel, rendimiento y herramientas simples, y sus proyectos suelen tener un estilo bastante directo.&lt;/p&gt;
&lt;p&gt;La segunda es que DeepSeek V4 Flash apunta a una inferencia eficiente. Si la experiencia local es lo bastante buena, puede resultar muy atractivo para usuarios de Mac.&lt;/p&gt;
&lt;p&gt;La tercera es que &lt;code&gt;ds4&lt;/code&gt; apunta directamente a Apple Metal. En lugar de intentar soportar todas las plataformas primero y optimizar después, parece buscar profundidad en un escenario muy definido.&lt;/p&gt;
&lt;h2 id=&#34;para-quién-es&#34;&gt;Para quién es
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;ds4&lt;/code&gt; encaja mejor con usuarios que:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Usan un Apple Silicon Mac.&lt;/li&gt;
&lt;li&gt;Quieren ejecutar DeepSeek V4 Flash en local.&lt;/li&gt;
&lt;li&gt;Se interesan por el rendimiento de inferencia con Metal.&lt;/li&gt;
&lt;li&gt;Están dispuestos a probar un proyecto en fase alpha.&lt;/li&gt;
&lt;li&gt;Quieren estudiar motores de inferencia ligeros y detalles de ejecución de modelos.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Si tu objetivo es un despliegue estable, ejecución multiplataforma o una infraestructura compatible con OpenAI API, probablemente no sea la primera opción en esta etapa. Tiene más sentido como herramienta experimental y como proyecto técnico para observar.&lt;/p&gt;
&lt;h2 id=&#34;cómo-usarlo&#34;&gt;Cómo usarlo
&lt;/h2&gt;&lt;p&gt;El flujo básico que muestra el README del proyecto es compilar primero y ejecutar después.&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;git clone https://github.com/antirez/ds4.git
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;cd&lt;/span&gt; ds4
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;make
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Ejecución interactiva:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;./ds4
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Iniciar el HTTP server:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;./ds4 --server
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Modo Agent:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;./ds4 --agent
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Para los parámetros concretos y la preparación de los archivos del modelo, conviene seguir el README del repositorio, porque el proyecto todavía cambia con rapidez.&lt;/p&gt;
&lt;h2 id=&#34;riesgos-actuales&#34;&gt;Riesgos actuales
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;ds4&lt;/code&gt; todavía está en una etapa temprana, así que conviene ajustar expectativas antes de usarlo:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Las funciones pueden estar incompletas.&lt;/li&gt;
&lt;li&gt;Los parámetros, formatos de modelo y comportamientos de línea de comandos pueden cambiar.&lt;/li&gt;
&lt;li&gt;La compatibilidad gira principalmente alrededor de Apple Silicon y Metal.&lt;/li&gt;
&lt;li&gt;El modo Agent es más experimental y no es adecuado para usarlo directamente en producción.&lt;/li&gt;
&lt;li&gt;Si surge un problema, quizá tengas que leer el README, los issues o el código fuente por tu cuenta.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;En otras palabras, ahora mismo se parece más a un experimento open source que vale la pena probar que a una herramienta de un clic para usuarios generales.&lt;/p&gt;
&lt;h2 id=&#34;diferencias-frente-a-herramientas-de-inferencia-generales&#34;&gt;Diferencias frente a herramientas de inferencia generales
&lt;/h2&gt;&lt;p&gt;Las herramientas de inferencia generales suelen buscar compatibilidad amplia con formatos de modelo, plataformas, backends y APIs. &lt;code&gt;ds4&lt;/code&gt; toma un camino más estrecho: ejecutar DeepSeek V4 Flash en local con Metal.&lt;/p&gt;
&lt;p&gt;Esa decisión tiene ventajas y costes.&lt;/p&gt;
&lt;p&gt;La ventaja es que la implementación puede mantenerse enfocada, lo que facilita optimizar rendimiento y experiencia alrededor de un único objetivo. El coste es un alcance limitado: no está pensado para ejecutar todo tipo de modelos ni para sustituir una plataforma completa de despliegue.&lt;/p&gt;
&lt;p&gt;Si ya usas &lt;code&gt;llama.cpp&lt;/code&gt; u Ollama, &lt;code&gt;ds4&lt;/code&gt; puede servir como herramienta complementaria de pruebas, no como sustituto inmediato de tu flujo de trabajo actual.&lt;/p&gt;
&lt;h2 id=&#34;resumen&#34;&gt;Resumen
&lt;/h2&gt;&lt;p&gt;Lo interesante de &lt;code&gt;ds4&lt;/code&gt; no es que sea otra herramienta local para grandes modelos. Lo interesante es que reduce mucho su alcance: DeepSeek V4 Flash, Apple Silicon, Metal e inferencia local.&lt;/p&gt;
&lt;p&gt;Si tienes un Mac adecuado y te apetece experimentar con un proyecto temprano, vale la pena seguir su rendimiento, su forma de soportar modelos y la evolución de sus capacidades de server/agent. Para entornos de producción, es mejor observar un poco más y evaluarlo cuando las interfaces y la forma de uso sean más estables.&lt;/p&gt;
&lt;h2 id=&#34;referencias&#34;&gt;Referencias
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;Proyecto en GitHub: &lt;a class=&#34;link&#34; href=&#34;https://github.com/antirez/ds4&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://github.com/antirez/ds4&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        
    </channel>
</rss>
