<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>DeepSeek on KnightLi Blog</title>
        <link>https://www.knightli.com/es/tags/deepseek/</link>
        <description>Recent content in DeepSeek on KnightLi Blog</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>es</language>
        <lastBuildDate>Mon, 11 May 2026 08:51:37 +0800</lastBuildDate><atom:link href="https://www.knightli.com/es/tags/deepseek/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>Ejecutar DeepSeek 4 en local: el experimento ds4 de Antirez en Apple Silicon Mac</title>
        <link>https://www.knightli.com/es/2026/05/11/deepseek-v4-flash-ds4-metal/</link>
        <pubDate>Mon, 11 May 2026 08:51:37 +0800</pubDate>
        
        <guid>https://www.knightli.com/es/2026/05/11/deepseek-v4-flash-ds4-metal/</guid>
        <description>&lt;p&gt;Antirez ha publicado un nuevo proyecto open source: &lt;code&gt;ds4&lt;/code&gt;. No es un framework LLM de propósito general, sino un motor de inferencia local para DeepSeek V4 Flash, centrado en Apple Silicon y el backend Metal.&lt;/p&gt;
&lt;p&gt;URL del proyecto: &lt;a class=&#34;link&#34; href=&#34;https://github.com/antirez/ds4&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://github.com/antirez/ds4&lt;/a&gt;&lt;/p&gt;
&lt;h2 id=&#34;qué-es-ds4&#34;&gt;Qué es ds4
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;ds4&lt;/code&gt; tiene un objetivo muy claro: ejecutar DeepSeek V4 Flash localmente en un Mac.&lt;/p&gt;
&lt;p&gt;Actualmente ofrece tres formas de uso:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;CLI interactiva.&lt;/li&gt;
&lt;li&gt;HTTP server.&lt;/li&gt;
&lt;li&gt;Un modo Agent experimental.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Por su posicionamiento, se parece más a un proyecto de inferencia profundamente optimizado para un modelo específico que a un reemplazo de herramientas generales como &lt;code&gt;llama.cpp&lt;/code&gt;, Ollama o vLLM.&lt;/p&gt;
&lt;h2 id=&#34;por-qué-merece-atención&#34;&gt;Por qué merece atención
&lt;/h2&gt;&lt;p&gt;Hay tres razones principales por las que este tipo de proyecto merece atención.&lt;/p&gt;
&lt;p&gt;La primera es que su autor es Antirez, creador de Redis. Lleva mucho tiempo interesado en sistemas de bajo nivel, rendimiento y herramientas simples, y sus proyectos suelen tener un estilo bastante directo.&lt;/p&gt;
&lt;p&gt;La segunda es que DeepSeek V4 Flash apunta a una inferencia eficiente. Si la experiencia local es lo bastante buena, puede resultar muy atractivo para usuarios de Mac.&lt;/p&gt;
&lt;p&gt;La tercera es que &lt;code&gt;ds4&lt;/code&gt; apunta directamente a Apple Metal. En lugar de intentar soportar todas las plataformas primero y optimizar después, parece buscar profundidad en un escenario muy definido.&lt;/p&gt;
&lt;h2 id=&#34;para-quién-es&#34;&gt;Para quién es
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;ds4&lt;/code&gt; encaja mejor con usuarios que:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Usan un Apple Silicon Mac.&lt;/li&gt;
&lt;li&gt;Quieren ejecutar DeepSeek V4 Flash en local.&lt;/li&gt;
&lt;li&gt;Se interesan por el rendimiento de inferencia con Metal.&lt;/li&gt;
&lt;li&gt;Están dispuestos a probar un proyecto en fase alpha.&lt;/li&gt;
&lt;li&gt;Quieren estudiar motores de inferencia ligeros y detalles de ejecución de modelos.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Si tu objetivo es un despliegue estable, ejecución multiplataforma o una infraestructura compatible con OpenAI API, probablemente no sea la primera opción en esta etapa. Tiene más sentido como herramienta experimental y como proyecto técnico para observar.&lt;/p&gt;
&lt;h2 id=&#34;cómo-usarlo&#34;&gt;Cómo usarlo
&lt;/h2&gt;&lt;p&gt;El flujo básico que muestra el README del proyecto es compilar primero y ejecutar después.&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;git clone https://github.com/antirez/ds4.git
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;cd&lt;/span&gt; ds4
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;make
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Ejecución interactiva:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;./ds4
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Iniciar el HTTP server:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;./ds4 --server
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Modo Agent:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;./ds4 --agent
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Para los parámetros concretos y la preparación de los archivos del modelo, conviene seguir el README del repositorio, porque el proyecto todavía cambia con rapidez.&lt;/p&gt;
&lt;h2 id=&#34;riesgos-actuales&#34;&gt;Riesgos actuales
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;ds4&lt;/code&gt; todavía está en una etapa temprana, así que conviene ajustar expectativas antes de usarlo:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Las funciones pueden estar incompletas.&lt;/li&gt;
&lt;li&gt;Los parámetros, formatos de modelo y comportamientos de línea de comandos pueden cambiar.&lt;/li&gt;
&lt;li&gt;La compatibilidad gira principalmente alrededor de Apple Silicon y Metal.&lt;/li&gt;
&lt;li&gt;El modo Agent es más experimental y no es adecuado para usarlo directamente en producción.&lt;/li&gt;
&lt;li&gt;Si surge un problema, quizá tengas que leer el README, los issues o el código fuente por tu cuenta.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;En otras palabras, ahora mismo se parece más a un experimento open source que vale la pena probar que a una herramienta de un clic para usuarios generales.&lt;/p&gt;
&lt;h2 id=&#34;diferencias-frente-a-herramientas-de-inferencia-generales&#34;&gt;Diferencias frente a herramientas de inferencia generales
&lt;/h2&gt;&lt;p&gt;Las herramientas de inferencia generales suelen buscar compatibilidad amplia con formatos de modelo, plataformas, backends y APIs. &lt;code&gt;ds4&lt;/code&gt; toma un camino más estrecho: ejecutar DeepSeek V4 Flash en local con Metal.&lt;/p&gt;
&lt;p&gt;Esa decisión tiene ventajas y costes.&lt;/p&gt;
&lt;p&gt;La ventaja es que la implementación puede mantenerse enfocada, lo que facilita optimizar rendimiento y experiencia alrededor de un único objetivo. El coste es un alcance limitado: no está pensado para ejecutar todo tipo de modelos ni para sustituir una plataforma completa de despliegue.&lt;/p&gt;
&lt;p&gt;Si ya usas &lt;code&gt;llama.cpp&lt;/code&gt; u Ollama, &lt;code&gt;ds4&lt;/code&gt; puede servir como herramienta complementaria de pruebas, no como sustituto inmediato de tu flujo de trabajo actual.&lt;/p&gt;
&lt;h2 id=&#34;resumen&#34;&gt;Resumen
&lt;/h2&gt;&lt;p&gt;Lo interesante de &lt;code&gt;ds4&lt;/code&gt; no es que sea otra herramienta local para grandes modelos. Lo interesante es que reduce mucho su alcance: DeepSeek V4 Flash, Apple Silicon, Metal e inferencia local.&lt;/p&gt;
&lt;p&gt;Si tienes un Mac adecuado y te apetece experimentar con un proyecto temprano, vale la pena seguir su rendimiento, su forma de soportar modelos y la evolución de sus capacidades de server/agent. Para entornos de producción, es mejor observar un poco más y evaluarlo cuando las interfaces y la forma de uso sean más estables.&lt;/p&gt;
&lt;h2 id=&#34;referencias&#34;&gt;Referencias
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;Proyecto en GitHub: &lt;a class=&#34;link&#34; href=&#34;https://github.com/antirez/ds4&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://github.com/antirez/ds4&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>DeepSeek-TUI: ejecuta un agente de programación DeepSeek en la terminal</title>
        <link>https://www.knightli.com/es/2026/05/08/deepseek-tui-terminal-coding-agent/</link>
        <pubDate>Fri, 08 May 2026 13:41:15 +0800</pubDate>
        
        <guid>https://www.knightli.com/es/2026/05/08/deepseek-tui-terminal-coding-agent/</guid>
        <description>&lt;p&gt;DeepSeek-TUI es un agente de programación con IA que corre en la terminal. Está diseñado alrededor de modelos DeepSeek V4 y se inicia con el comando &lt;code&gt;deepseek&lt;/code&gt;. Dentro de una TUI puede leer y editar archivos, ejecutar comandos shell, buscar en la web, gestionar git, conectar servidores MCP y coordinar subagentes.&lt;/p&gt;
&lt;p&gt;Es más un espacio de trabajo de terminal que un chat CLI simple. Combina lectura de código, edición de archivos, comandos, diagnósticos, recuperación de sesión y rollback del workspace.&lt;/p&gt;
&lt;p&gt;El repositorio está escrito principalmente en Rust y usa licencia MIT.&lt;/p&gt;
&lt;h2 id=&#34;para-quién-es&#34;&gt;Para quién es
&lt;/h2&gt;&lt;p&gt;Sirve para desarrolladores que prefieren trabajar en terminal y quieren usar modelos DeepSeek en tareas locales reales.&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Cambios de código y análisis de proyectos.&lt;/li&gt;
&lt;li&gt;Trabajo sin abrir un IDE completo.&lt;/li&gt;
&lt;li&gt;Lectura y modificación de un workspace local.&lt;/li&gt;
&lt;li&gt;Modos Plan, Agent y YOLO.&lt;/li&gt;
&lt;li&gt;Guardar y reanudar sesiones largas.&lt;/li&gt;
&lt;li&gt;Revertir cambios del workspace.&lt;/li&gt;
&lt;li&gt;Integrar MCP, diagnósticos LSP, HTTP/SSE runtime API y skills.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Para preguntas simples, un cliente web o CLI ligero basta. DeepSeek-TUI tiene más sentido cuando el modelo debe formar parte del flujo de desarrollo local.&lt;/p&gt;
&lt;h2 id=&#34;instalación&#34;&gt;Instalación
&lt;/h2&gt;&lt;p&gt;Con npm:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;npm install -g deepseek-tui
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;deepseek --version
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;deepseek --model auto
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;El paquete npm es un instalador/wrapper que descarga binarios Rust precompilados. Requiere Node.js &lt;code&gt;&amp;gt;=18&lt;/code&gt;.&lt;/p&gt;
&lt;p&gt;Con Cargo:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;cargo install deepseek-tui-cli --locked
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;cargo install deepseek-tui --locked
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Con Homebrew:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;brew tap Hmbown/deepseek-tui
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;brew install deepseek-tui
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;También hay binarios en GitHub Releases para Linux x64/ARM64, macOS x64/ARM64 y Windows x64.&lt;/p&gt;
&lt;p&gt;Docker:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;docker run --rm -it &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  -e DEEPSEEK_API_KEY &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  -v &lt;span class=&#34;s2&#34;&gt;&amp;#34;&lt;/span&gt;&lt;span class=&#34;nv&#34;&gt;$PWD&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;:/workspace&amp;#34;&lt;/span&gt; &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  ghcr.io/hmbown/deepseek-tui:latest
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h2 id=&#34;configurar-la-api-key&#34;&gt;Configurar la API Key
&lt;/h2&gt;&lt;p&gt;En el primer inicio, DeepSeek-TUI pide la API key y la guarda en:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;~/.deepseek/config.toml
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;También puedes configurarla así:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;deepseek auth &lt;span class=&#34;nb&#34;&gt;set&lt;/span&gt; --provider deepseek
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;deepseek auth status
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;O usar variable de entorno:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;export&lt;/span&gt; &lt;span class=&#34;nv&#34;&gt;DEEPSEEK_API_KEY&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;YOUR_KEY&amp;#34;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;deepseek
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Comprueba la instalación:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;deepseek doctor
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Para borrar la clave guardada:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;deepseek auth clear --provider deepseek
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h2 id=&#34;auto-mode&#34;&gt;Auto mode
&lt;/h2&gt;&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;deepseek --model auto
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;En la TUI:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;/model auto
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Auto mode decide dos cosas:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Modelo: &lt;code&gt;deepseek-v4-flash&lt;/code&gt; o &lt;code&gt;deepseek-v4-pro&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;Thinking: &lt;code&gt;off&lt;/code&gt;, &lt;code&gt;high&lt;/code&gt; o &lt;code&gt;max&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Antes del turno real, hace una llamada pequeña de enrutamiento para analizar la petición y el contexto. Las tareas simples pueden usar Flash con thinking desactivado; tareas complejas pueden subir a Pro o mayor thinking.&lt;/p&gt;
&lt;p&gt;&lt;code&gt;auto&lt;/code&gt; es local a DeepSeek-TUI. La API upstream recibe el modelo concreto elegido.&lt;/p&gt;
&lt;h2 id=&#34;modos&#34;&gt;Modos
&lt;/h2&gt;&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;Modo&lt;/th&gt;
          &lt;th&gt;Uso&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;Plan&lt;/td&gt;
          &lt;td&gt;Exploración y planificación de solo lectura&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Agent&lt;/td&gt;
          &lt;td&gt;Modo interactivo con aprobaciones&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;YOLO&lt;/td&gt;
          &lt;td&gt;Autoaprobación en workspaces confiables&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;YOLO es rápido pero riesgoso. Úsalo solo en ramas temporales o directorios de prueba.&lt;/p&gt;
&lt;h2 id=&#34;herramientas&#34;&gt;Herramientas
&lt;/h2&gt;&lt;p&gt;Incluye lectura/escritura de archivos, apply patch, shell, git, web search/browse, subagentes, MCP, diagnósticos LSP, guardado/reanudación de sesiones, rollback del workspace, cola de tareas durable, HTTP/SSE runtime API y sistema de skills.&lt;/p&gt;
&lt;p&gt;Los diagnósticos LSP ayudan a devolver errores de rust-analyzer, pyright, typescript-language-server, gopls o clangd al modelo después de editar. El rollback usa snapshots side-git y comandos como &lt;code&gt;/restore&lt;/code&gt; y &lt;code&gt;revert_turn&lt;/code&gt;, pero los commits normales de git siguen siendo importantes.&lt;/p&gt;
&lt;h2 id=&#34;comandos-comunes&#34;&gt;Comandos comunes
&lt;/h2&gt;&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt; 1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 6
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 7
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 8
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 9
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;10
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;11
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;12
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;13
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;14
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;15
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;16
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;17
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;18
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;19
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;deepseek
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;deepseek &lt;span class=&#34;s2&#34;&gt;&amp;#34;explain this function&amp;#34;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;deepseek --model deepseek-v4-flash &lt;span class=&#34;s2&#34;&gt;&amp;#34;summarize&amp;#34;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;deepseek --model auto &lt;span class=&#34;s2&#34;&gt;&amp;#34;fix this bug&amp;#34;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;deepseek --yolo
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;deepseek auth &lt;span class=&#34;nb&#34;&gt;set&lt;/span&gt; --provider deepseek
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;deepseek doctor
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;deepseek doctor --json
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;deepseek models
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;deepseek sessions
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;deepseek resume --last
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;deepseek resume &amp;lt;SESSION_ID&amp;gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;deepseek fork &amp;lt;SESSION_ID&amp;gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;deepseek serve --http
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;deepseek serve --acp
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;deepseek pr &amp;lt;N&amp;gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;deepseek mcp list
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;deepseek mcp validate
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;deepseek update
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h2 id=&#34;zed-y-acp&#34;&gt;Zed y ACP
&lt;/h2&gt;&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt; 1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 6
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 7
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 8
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 9
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;10
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-json&#34; data-lang=&#34;json&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;p&#34;&gt;{&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  &lt;span class=&#34;nt&#34;&gt;&amp;#34;agent_servers&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;p&#34;&gt;{&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;nt&#34;&gt;&amp;#34;DeepSeek&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;p&#34;&gt;{&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;      &lt;span class=&#34;nt&#34;&gt;&amp;#34;type&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;custom&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;      &lt;span class=&#34;nt&#34;&gt;&amp;#34;command&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;deepseek&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;      &lt;span class=&#34;nt&#34;&gt;&amp;#34;args&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;p&#34;&gt;[&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;serve&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;--acp&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;],&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;      &lt;span class=&#34;nt&#34;&gt;&amp;#34;env&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;p&#34;&gt;{}&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;p&#34;&gt;}&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  &lt;span class=&#34;p&#34;&gt;}&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;p&#34;&gt;}&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;El README indica que ACP permite nuevas sesiones y respuestas a prompts, pero la edición con herramientas y la repetición de checkpoints aún no están expuestas.&lt;/p&gt;
&lt;h2 id=&#34;configuración-y-proveedores&#34;&gt;Configuración y proveedores
&lt;/h2&gt;&lt;p&gt;Configuración de usuario:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;~/.deepseek/config.toml
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Overlay de proyecto:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&amp;lt;workspace&amp;gt;/.deepseek/config.toml
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Campos como &lt;code&gt;api_key&lt;/code&gt;, &lt;code&gt;base_url&lt;/code&gt;, &lt;code&gt;provider&lt;/code&gt; y &lt;code&gt;mcp_config_path&lt;/code&gt; no se permiten en el overlay del proyecto.&lt;/p&gt;
&lt;p&gt;Endpoint compatible con OpenAI:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;deepseek auth &lt;span class=&#34;nb&#34;&gt;set&lt;/span&gt; --provider openai --api-key &lt;span class=&#34;s2&#34;&gt;&amp;#34;YOUR_OPENAI_COMPATIBLE_API_KEY&amp;#34;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nv&#34;&gt;OPENAI_BASE_URL&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;https://openai-compatible.example/v4&amp;#34;&lt;/span&gt; deepseek --provider openai --model glm-5
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Ollama:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;ollama pull deepseek-coder:1.3b
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;deepseek --provider ollama --model deepseek-coder:1.3b
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h2 id=&#34;resumen&#34;&gt;Resumen
&lt;/h2&gt;&lt;p&gt;DeepSeek-TUI reúne DeepSeek V4, TUI, llamadas a herramientas, diagnósticos LSP, recuperación de sesiones, rollback, MCP y skills en un flujo Rust de terminal. No es el cliente más ligero, pero su valor está en pasar del chat al desarrollo local ejecutable.&lt;/p&gt;
&lt;h2 id=&#34;referencias&#34;&gt;Referencias
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://github.com/Hmbown/DeepSeek-TUI&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Repositorio de DeepSeek-TUI en GitHub&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://deepseek-tui.com/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Sitio de DeepSeek-TUI&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://www.npmjs.com/package/deepseek-tui&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Paquete npm de DeepSeek-TUI&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://platform.deepseek.com/api_keys&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;DeepSeek API Keys&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>Despliegue privado local de DeepSeek V4: elegir entre chips nacionales y clusters de GPU de consumo</title>
        <link>https://www.knightli.com/es/2026/05/08/deepseek-v4-local-private-deployment/</link>
        <pubDate>Fri, 08 May 2026 09:39:35 +0800</pubDate>
        
        <guid>https://www.knightli.com/es/2026/05/08/deepseek-v4-local-private-deployment/</guid>
        <description>&lt;p&gt;Tras el lanzamiento de DeepSeek V4, muchas empresas empezaron a hacerse una pregunta: ¿se puede evitar una API externa y desplegar el modelo en un centro de datos propio, una nube privada o un cluster dedicado?&lt;/p&gt;
&lt;p&gt;La necesidad es muy real. Finanzas, sanidad, gobierno, fabricacion, legal y equipos de I+D a menudo no pueden enviar documentos internos, codigo, contratos, tickets o datos de clientes directamente a modelos de nube publica. En estos escenarios, el atractivo de DeepSeek V4 no esta solo en la capacidad del modelo, sino en que ofrece a las empresas una opcion mas cercana a una infraestructura LLM controlable.&lt;/p&gt;
&lt;p&gt;Sin embargo, desplegar DeepSeek V4 localmente no es tan simple como descargar el modelo y buscar unas cuantas GPU. Especialmente en modelos MoE muy grandes como Pro, el numero total de parametros, parametros activos, longitud de contexto, KV cache, concurrencia y framework de inferencia determinan directamente el coste de hardware. Lo que una empresa debe hacer no es perseguir a ciegas la version completa, sino confirmar primero que forma de despliegue necesita el negocio.&lt;/p&gt;
&lt;h2 id=&#34;aclarar-primero-el-objetivo-del-despliegue&#34;&gt;Aclarar primero el objetivo del despliegue
&lt;/h2&gt;&lt;p&gt;El despliegue privado local en empresas suele tener tres objetivos:&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;Que los datos no salgan del dominio: documentos internos, codigo, materiales de clientes, logs y bases de conocimiento no abandonan el entorno empresarial.&lt;/li&gt;
&lt;li&gt;Estabilidad y control: servicios de modelo, permisos, auditoria, logs y ritmo de actualizaciones quedan bajo control de la empresa.&lt;/li&gt;
&lt;li&gt;Reducir coste a largo plazo: con llamadas frecuentes, la inferencia local puede ser mas controlable que comprar API externas durante mucho tiempo.&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;Si solo unos pocos empleados preguntan de vez en cuando, el despliegue local no siempre compensa. La privatizacion encaja mejor con escenarios frecuentes, estables, sensibles en datos y con flujos claros, por ejemplo:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Preguntas sobre una base de conocimiento interna.&lt;/li&gt;
&lt;li&gt;Revision de codigo y asistentes de desarrollo.&lt;/li&gt;
&lt;li&gt;Resumen de tickets de atencion al cliente.&lt;/li&gt;
&lt;li&gt;Analisis de contratos, historias clinicas e informes.&lt;/li&gt;
&lt;li&gt;Asistentes para consultas de bases de datos.&lt;/li&gt;
&lt;li&gt;Automatizacion de flujos con Agent.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Estos escenarios comparten rasgos: datos sensibles, llamadas estables y posibilidad de incorporarse a la gobernanza empresarial mediante permisos y logs.&lt;/p&gt;
&lt;h2 id=&#34;no-perseguir-pro-completo-desde-el-primer-dia&#34;&gt;No perseguir Pro completo desde el primer dia
&lt;/h2&gt;&lt;p&gt;Las versiones comunes de DeepSeek V4 incluyen Pro y Flash. Segun materiales publicos, Pro se orienta a razonamiento mas fuerte y tareas Agent complejas, mientras Flash enfatiza coste y velocidad de respuesta. Al elegir, una empresa no deberia asumir que todo el negocio necesita Pro.&lt;/p&gt;
&lt;p&gt;Puedes dividir por complejidad de tarea:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Preguntas simples, resumen, clasificacion y generacion de etiquetas: priorizar Flash o modelos mas pequenos.&lt;/li&gt;
&lt;li&gt;RAG para bases de conocimiento internas: Flash cubre muchos escenarios; RAG, permisos y calidad de recuperacion importan mas.&lt;/li&gt;
&lt;li&gt;Code Agents, razonamiento complejo y analisis de contexto largo: entonces evaluar Pro.&lt;/li&gt;
&lt;li&gt;Tareas de alto valor y baja frecuencia: se puede usar Pro, pero no necesariamente con alta concurrencia.&lt;/li&gt;
&lt;li&gt;Asistentes de oficina comunes: no hace falta ocupar durante mucho tiempo los recursos de inferencia mas caros.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;La ventaja de los modelos MoE es que cada inferencia solo activa una parte de los parametros, pero eso no significa que la presion de hardware sea pequena. Almacenamiento de pesos, paralelismo de expertos, comunicacion de red, cache de contexto y planificacion concurrente siguen siendo pesados. Especialmente con contexto de nivel 1M token, lo que consume recursos no suele ser una respuesta aislada, sino el contexto largo, la concurrencia multiusuario y las sesiones persistentes.&lt;/p&gt;
&lt;h2 id=&#34;ruta-de-chips-nacionales-adecuada-para-nube-privada-empresarial&#34;&gt;Ruta de chips nacionales: adecuada para nube privada empresarial
&lt;/h2&gt;&lt;p&gt;Si una empresa ya tiene un pool de computo nacional, o requisitos de Xinchuang, cumplimiento o control de cadena de suministro, puede evaluar primero chips nacionales como Ascend y Cambricon.&lt;/p&gt;
&lt;p&gt;Las ventajas de esta ruta son:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Encaja mejor con requisitos de localizacion y control de cadena de suministro.&lt;/li&gt;
&lt;li&gt;Es adecuada para centros de datos empresariales, nubes dedicadas y proyectos de gobierno/empresa.&lt;/li&gt;
&lt;li&gt;Facilita unificar permisos, auditoria, aislamiento de recursos y operaciones.&lt;/li&gt;
&lt;li&gt;Es mas amable para servicios estables a largo plazo.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Pero la ruta de chips nacionales tambien requiere mirar tres problemas reales.&lt;/p&gt;
&lt;p&gt;Primero, adaptacion del framework. Que el modelo pueda ejecutarse no depende solo de la potencia del chip, sino de si el framework de inferencia, operadores, bibliotecas de comunicacion, formatos de cuantizacion, paralelismo de expertos MoE y optimizacion de contexto largo estan maduros.&lt;/p&gt;
&lt;p&gt;Segundo, experiencia de ingenieria. La empresa necesita mas que &amp;ldquo;arranco correctamente&amp;rdquo;; necesita servicio estable: multiinquilino, limitacion de tasa, monitorizacion, recuperacion ante fallos, despliegues grises, auditoria de logs y aislamiento de permisos.&lt;/p&gt;
&lt;p&gt;Tercero, diferencias de ecosistema. El mismo modelo no tendra exactamente el mismo rendimiento, precision, soporte de cuantizacion y herramientas de despliegue en NVIDIA, Ascend, Cambricon u otras plataformas. Antes de producción hay que hacer pruebas de carga reales, no mirar solo la potencia nominal.&lt;/p&gt;
&lt;p&gt;Por tanto, los chips nacionales encajan mejor con empresas de presupuesto claro, requisitos altos de cumplimiento y voluntad de invertir en ingenieria de plataforma. No es la ruta mas facil, pero puede ser la que mejor encaje con la gobernanza a largo plazo.&lt;/p&gt;
&lt;h2 id=&#34;clusters-de-gpu-de-consumo-adecuados-para-pilotos-y-equipos-pequenos&#34;&gt;Clusters de GPU de consumo: adecuados para pilotos y equipos pequenos
&lt;/h2&gt;&lt;p&gt;Si el objetivo es validar primero el valor de negocio, un cluster de GPU de consumo es mas facil para empezar. GPU como RTX 4090, RTX 5090, RTX 3090 y RTX 3060 12GB tienen mas herramientas comunitarias, modelos cuantizados y referencias de inferencia local, por lo que el coste de prueba y error es menor.&lt;/p&gt;
&lt;p&gt;La ruta de GPU de consumo encaja con:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Pilotos internos de equipos de I+D.&lt;/li&gt;
&lt;li&gt;Preguntas sobre bases de conocimiento en pymes.&lt;/li&gt;
&lt;li&gt;Asistentes de codigo de baja concurrencia.&lt;/li&gt;
&lt;li&gt;Procesamiento offline de documentos.&lt;/li&gt;
&lt;li&gt;Herramientas internas sin requisitos estrictos de SLA.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Pero tambien tiene limites claros:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;La VRAM es pequena y cuesta alojar directamente un modelo grande completo.&lt;/li&gt;
&lt;li&gt;La comunicacion multi-GPU es debil, y la comunicacion entre maquinas es mas complicada.&lt;/li&gt;
&lt;li&gt;La estabilidad a plena carga durante largo tiempo es peor que en soluciones de servidor.&lt;/li&gt;
&lt;li&gt;Chasis, alimentacion, refrigeracion, drivers y operaciones se convierten en costes ocultos.&lt;/li&gt;
&lt;li&gt;No conviene prometer alta disponibilidad empresarial desde el principio.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Un enfoque mas realista es ejecutar primero Flash, versiones destiladas, versiones cuantizadas o modelos pequenos en GPU de consumo, hacer funcionar el flujo de negocio y decidir despues si migrar a GPU de servidor o a una plataforma de computo nacional tras validar volumen de llamadas, efecto y gobernanza de datos.&lt;/p&gt;
&lt;h2 id=&#34;posible-arquitectura-de-despliegue&#34;&gt;Posible arquitectura de despliegue
&lt;/h2&gt;&lt;p&gt;Una arquitectura privada empresarial relativamente estable puede dividirse en seis capas:&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;Capa de modelo: DeepSeek V4 Pro, V4 Flash o modelos destilados mas pequenos segun la tarea.&lt;/li&gt;
&lt;li&gt;Capa de inferencia: SGLang, vLLM, llama.cpp, stacks de inferencia NPU de fabricantes o servicios propios.&lt;/li&gt;
&lt;li&gt;Capa de gateway: autenticacion unificada, limitacion de tasa, auditoria, enrutamiento de modelos y logs de llamadas.&lt;/li&gt;
&lt;li&gt;Capa de conocimiento: base vectorial, busqueda de texto completo, analisis de documentos, filtrado por permisos y RAG.&lt;/li&gt;
&lt;li&gt;Capa de aplicacion: atencion al cliente, asistentes de codigo, analisis de documentos, preguntas sobre informes y flujos Agent.&lt;/li&gt;
&lt;li&gt;Capa de operaciones: monitorizacion, alertas, estadisticas de coste, despliegues grises, rollback y auditoria de seguridad.&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;Las capas que mas se subestiman son el gateway y la capa de conocimiento. Muchos proyectos fallan no porque el modelo sea inutilizable, sino porque permisos, recuperacion, logs, gestion de contexto, plantillas de prompt y flujos de negocio no estan bien hechos.&lt;/p&gt;
&lt;p&gt;Al desplegar LLM dentro de una empresa, el modelo debe tratarse como una capacidad de infraestructura, no como una pagina de chat aislada. El valor real aparece cuando el modelo entra en los flujos y puede procesar de forma estable los datos y tareas propios de la empresa.&lt;/p&gt;
&lt;h2 id=&#34;criterios-para-elegir-hardware&#34;&gt;Criterios para elegir hardware
&lt;/h2&gt;&lt;p&gt;El hardware no debe evaluarse solo por &amp;ldquo;si puede correr&amp;rdquo;, sino tambien por &amp;ldquo;si puede prestar servicio de forma estable&amp;rdquo;.&lt;/p&gt;
&lt;p&gt;Puedes elegir por etapas:&lt;/p&gt;
&lt;h3 id=&#34;etapa-de-validacion&#34;&gt;Etapa de validacion
&lt;/h3&gt;&lt;p&gt;El objetivo es demostrar si merece la pena hacer el negocio.&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Usar 1-4 GPU de consumo.&lt;/li&gt;
&lt;li&gt;Priorizar Flash, modelos pequenos, modelos destilados o modelos cuantizados.&lt;/li&gt;
&lt;li&gt;Mantener baja la concurrencia y centrarse en la tasa de finalizacion de tareas.&lt;/li&gt;
&lt;li&gt;No prometer alta disponibilidad.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;En esta etapa no conviene comprar hardware a gran escala demasiado pronto. Primero confirma si los empleados realmente lo usan, si el negocio ahorra tiempo y si las respuestas pueden entrar en el flujo.&lt;/p&gt;
&lt;h3 id=&#34;etapa-piloto&#34;&gt;Etapa piloto
&lt;/h3&gt;&lt;p&gt;El objetivo es que un departamento o una linea de negocio lo use de forma estable.&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Usar 4-16 GPU o un conjunto de nodos NPU nacionales.&lt;/li&gt;
&lt;li&gt;Agregar gateway unificado, logs y control de permisos.&lt;/li&gt;
&lt;li&gt;Construir RAG, analisis de documentos, enrutamiento de modelos y cache.&lt;/li&gt;
&lt;li&gt;Empezar a medir tokens, concurrencia, latencia y tasa de fallos.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;En esta etapa hay que empezar a cuidar operaciones. El efecto del modelo es solo una parte; estabilidad, coste y gobernanza de datos son igual de importantes.&lt;/p&gt;
&lt;h3 id=&#34;etapa-de-produccion&#34;&gt;Etapa de produccion
&lt;/h3&gt;&lt;p&gt;El objetivo es entrar en servicio empresarial.&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Usar GPU de servidor, clusters de computo nacional o pools de recursos de nube privada.&lt;/li&gt;
&lt;li&gt;Establecer multiples replicas, limitacion de tasa, failover y planificacion de capacidad.&lt;/li&gt;
&lt;li&gt;Enrutar modelos por tarea: tareas simples a modelos ligeros, tareas complejas a Pro.&lt;/li&gt;
&lt;li&gt;Conectar con sistemas de identidad, auditoria y politicas de seguridad de la empresa.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;En produccion no se recomienda enviar todas las solicitudes al modelo mas fuerte. Un enrutamiento razonable suele ahorrar mas dinero que acumular hardware.&lt;/p&gt;
&lt;h2 id=&#34;como-elegir-framework-de-inferencia&#34;&gt;Como elegir framework de inferencia
&lt;/h2&gt;&lt;p&gt;Modelos como DeepSeek V4 exigen mucho al framework de inferencia. Cuando intervienen MoE, contexto largo, atencion dispersa, cuantizacion y paralelismo multi-GPU, la madurez del framework afecta directamente velocidad y estabilidad.&lt;/p&gt;
&lt;p&gt;Las opciones comunes pueden entenderse asi:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;SGLang&lt;/code&gt;: adecuado para equipos que buscan inferencia de alto rendimiento, Agent, llamadas multi-turno a herramientas y orquestacion de servicios complejos.&lt;/li&gt;
&lt;li&gt;&lt;code&gt;vLLM&lt;/code&gt;: ecosistema maduro, adecuado para servicios LLM generales, pero el soporte concreto depende de la version y del progreso de adaptacion del modelo.&lt;/li&gt;
&lt;li&gt;&lt;code&gt;llama.cpp&lt;/code&gt;: mas adecuado para modelos pequenos, modelos cuantizados y despliegue en edge; no para alojar directamente un MoE enorme completo.&lt;/li&gt;
&lt;li&gt;Stacks de inferencia NPU nacionales: adecuados para Xinchuang y entornos de computo nacional, pero hay que verificar operadores, cuantizacion y contexto largo.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;No elijas framework solo por benchmark. Una empresa deberia probar sus entradas reales: longitud de documentos internos, concurrencia, longitud media de salida, tasa de acierto de RAG, numero de llamadas a herramientas de Agent y reintentos tras fallos.&lt;/p&gt;
&lt;h2 id=&#34;la-seguridad-de-datos-debe-hacerse-fuera-del-modelo&#34;&gt;La seguridad de datos debe hacerse fuera del modelo
&lt;/h2&gt;&lt;p&gt;El despliegue privado no significa seguridad automatica. Ejecutar el modelo localmente solo resuelve una parte de si los datos salen de la empresa.&lt;/p&gt;
&lt;p&gt;Tambien hay que completar:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Cuentas y permisos: cada departamento solo puede acceder a su propia base de conocimiento.&lt;/li&gt;
&lt;li&gt;Auditoria de logs: quien pregunto que, que modelo se llamo y que documentos se consultaron.&lt;/li&gt;
&lt;li&gt;Enmascaramiento de datos: informacion de clientes, numeros de documento, telefonos, importes de contrato y otros campos sensibles deben tratarse.&lt;/li&gt;
&lt;li&gt;Seguridad de prompts: evitar que usuarios eludan permisos o filtren prompts de sistema mediante prompts.&lt;/li&gt;
&lt;li&gt;Revision de salidas: en escenarios importantes debe haber revision humana o por reglas.&lt;/li&gt;
&lt;li&gt;Ciclo de vida de datos: documentos subidos, indices vectoriales, cache y registros de sesion deben poder eliminarse.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Para construir LLM locales, la empresa no puede involucrar solo al equipo de algoritmos. Seguridad, legal, operaciones y responsables de negocio tambien deben participar; si no, los riesgos se concentraran tras el lanzamiento.&lt;/p&gt;
&lt;h2 id=&#34;el-coste-no-son-solo-las-gpu&#34;&gt;El coste no son solo las GPU
&lt;/h2&gt;&lt;p&gt;El coste del despliegue local suele subestimarse. Ademas de GPU o NPU, hay que contar:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Servidores, racks, alimentacion, refrigeracion y red.&lt;/li&gt;
&lt;li&gt;Almacenamiento y copias.&lt;/li&gt;
&lt;li&gt;Adaptacion de framework de inferencia y desarrollo de ingenieria.&lt;/li&gt;
&lt;li&gt;Monitorizacion operativa y gestion de incidentes.&lt;/li&gt;
&lt;li&gt;Actualizacion de modelos, rollback y pruebas de compatibilidad.&lt;/li&gt;
&lt;li&gt;Auditoria de seguridad y sistemas de permisos.&lt;/li&gt;
&lt;li&gt;Prompts, RAG y flujos de trabajo del lado del negocio.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Si el volumen de llamadas es bajo, una API externa puede ser mas barata. Si el volumen es alto, los datos son sensibles y el flujo es estable, el despliegue local amortiza mejor el coste.&lt;/p&gt;
&lt;p&gt;Una estrategia mas razonable es el despliegue hibrido:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Datos muy sensibles usan modelos locales.&lt;/li&gt;
&lt;li&gt;Tareas generales de baja sensibilidad pueden usar API externas.&lt;/li&gt;
&lt;li&gt;Tareas simples usan modelos pequenos.&lt;/li&gt;
&lt;li&gt;Tareas complejas usan DeepSeek V4 Pro.&lt;/li&gt;
&lt;li&gt;Tareas frecuentes priorizan optimizar cache, recuperacion y enrutamiento de modelos.&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;ruta-recomendada-de-implantacion&#34;&gt;Ruta recomendada de implantacion
&lt;/h2&gt;&lt;p&gt;Una empresa puede avanzar en este orden:&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;Elegir primero 2-3 escenarios de alto valor, sin desplegar en toda la empresa.&lt;/li&gt;
&lt;li&gt;Usar GPU de consumo o computo a pequena escala para un PoC.&lt;/li&gt;
&lt;li&gt;Ejecutar primero Flash, modelos destilados o modelos cuantizados, conectando RAG y permisos.&lt;/li&gt;
&lt;li&gt;Introducir Pro para comparar en tareas complejas.&lt;/li&gt;
&lt;li&gt;Registrar volumen real de llamadas, latencia, tasa de fallos y tiempo humano ahorrado.&lt;/li&gt;
&lt;li&gt;Despues decidir si comprar clusters de chips nacionales o GPU de servidor.&lt;/li&gt;
&lt;li&gt;Antes de produccion, completar gateway, auditoria, monitorizacion, limitacion de tasa y rollback.&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;Esta ruta es mas estable que comprar un gran cluster desde el principio. El mayor riesgo para una empresa no es que el modelo no sea lo bastante fuerte, sino gastar mucho dinero y descubrir despues que el flujo de negocio no puede absorber esa capacidad.&lt;/p&gt;
&lt;h2 id=&#34;resumen&#34;&gt;Resumen
&lt;/h2&gt;&lt;p&gt;DeepSeek V4 abre mas imaginacion para el despliegue privado local en empresas, pero no es simplemente un &amp;ldquo;ChatGPT local&amp;rdquo;. La dificultad real esta en la ingenieria: hardware, frameworks, enrutamiento de modelos, permisos, RAG, auditoria, monitorizacion y control de costes deben considerarse juntos.&lt;/p&gt;
&lt;p&gt;La ruta de chips nacionales encaja mejor con empresas de alto cumplimiento y planes de nube privada a largo plazo. Los clusters de GPU de consumo encajan mejor con pilotos y validacion rapida en equipos pequenos y medianos. Pro sirve para razonamiento complejo y Agent; Flash o modelos pequenos son mejores para muchas tareas comunes.&lt;/p&gt;
&lt;p&gt;Si solo recuerdas una frase: el despliegue privado de DeepSeek V4 no debe empezar por comprar hardware, sino por escenarios de negocio, limites de datos y volumen de llamadas. Primero haz funcionar el escenario; despues decide si usar un modelo grande, que tamano debe tener y sobre que computo desplegarlo.&lt;/p&gt;
&lt;h2 id=&#34;referencias&#34;&gt;Referencias
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://apnews.com/article/deepseek-ai-china-gpt-v4-d2ed33f2521917193616e061674d5f92&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;AP News: DeepSeek launches an update of its AI model&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/blog/deepseekv4&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Hugging Face Blog: DeepSeek-V4&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://www.lmsys.org/blog/2026-04-25-deepseek-v4/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;LMSYS Blog: DeepSeek-V4 on Day 0&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>free-claude-code: conectar Claude Code a OpenRouter, DeepSeek y modelos locales mediante un proxy</title>
        <link>https://www.knightli.com/es/2026/05/01/free-claude-code-anthropic-compatible-proxy/</link>
        <pubDate>Fri, 01 May 2026 03:41:49 +0800</pubDate>
        
        <guid>https://www.knightli.com/es/2026/05/01/free-claude-code-anthropic-compatible-proxy/</guid>
        <description>&lt;p&gt;&lt;code&gt;free-claude-code&lt;/code&gt; es un Anthropic-compatible proxy para usar con &lt;code&gt;Claude Code&lt;/code&gt;.&lt;/p&gt;
&lt;p&gt;La idea no es crackear Claude Code ni ofrecer un servicio Claude oficial gratuito, sino iniciar localmente un proxy compatible con la forma de la API de Anthropic y reenviar las solicitudes de Claude Code a otros backends de modelos. El README menciona backends como NVIDIA NIM, OpenRouter, DeepSeek, LM Studio, llama.cpp y Ollama.&lt;/p&gt;
&lt;p&gt;En pocas palabras, resuelve este problema: te gusta la experiencia de Claude Code en la terminal, pero quieres conectar las peticiones del modelo a otro provider o a un modelo local.&lt;/p&gt;
&lt;h2 id=&#34;qué-problema-resuelve&#34;&gt;Qué problema resuelve
&lt;/h2&gt;&lt;p&gt;La experiencia interactiva de Claude Code es muy adecuada para tareas de desarrollo.&lt;/p&gt;
&lt;p&gt;Puede leer código en la terminal, modificar archivos, ejecutar comandos y avanzar según el contexto del proyecto. El problema es que muchos usuarios no necesariamente quieren usar siempre el mismo backend de modelo:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Quieren probar distintos modelos en OpenRouter&lt;/li&gt;
&lt;li&gt;Quieren usar modelos como DeepSeek para reducir costes&lt;/li&gt;
&lt;li&gt;Quieren conectar las peticiones a Ollama local&lt;/li&gt;
&lt;li&gt;Quieren ejecutar modelos locales con LM Studio o llama.cpp&lt;/li&gt;
&lt;li&gt;Quieren unificar en el entorno de desarrollo una entrada de proxy&lt;/li&gt;
&lt;li&gt;Quieren comparar el rendimiento de distintos modelos dentro del flujo de Claude Code&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;El posicionamiento de &lt;code&gt;free-claude-code&lt;/code&gt; es añadir una capa de proxy compatible entre Claude Code y estos servicios de modelos.&lt;/p&gt;
&lt;p&gt;Así, Claude Code sigue enviando solicitudes con estilo Anthropic, y el proxy se encarga de adaptarlas a distintos backends.&lt;/p&gt;
&lt;h2 id=&#34;funcionamiento&#34;&gt;Funcionamiento
&lt;/h2&gt;&lt;p&gt;Puede entenderse como tres capas:&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;El frontend es Claude Code&lt;/li&gt;
&lt;li&gt;En medio está el proxy &lt;code&gt;free-claude-code&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;El backend es OpenRouter, DeepSeek, un modelo local u otro servicio de modelo&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;Claude Code cree que está accediendo a una API Anthropic-compatible.&lt;/p&gt;
&lt;p&gt;El proxy recibe la solicitud, elige el provider objetivo según la configuración, transforma los campos necesarios y devuelve la respuesta a Claude Code.&lt;/p&gt;
&lt;p&gt;La ventaja de esta estructura es que no necesitas modificar Claude Code ni exigir que cada servicio de modelo soporte Claude Code de forma nativa. Mientras el proxy pueda alinear la interfaz, puede conectar más modelos al mismo flujo de trabajo.&lt;/p&gt;
&lt;h2 id=&#34;backends-soportados&#34;&gt;Backends soportados
&lt;/h2&gt;&lt;p&gt;Las direcciones listadas en el README incluyen:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;NVIDIA NIM&lt;/li&gt;
&lt;li&gt;OpenRouter&lt;/li&gt;
&lt;li&gt;DeepSeek&lt;/li&gt;
&lt;li&gt;LM Studio&lt;/li&gt;
&lt;li&gt;llama.cpp&lt;/li&gt;
&lt;li&gt;Ollama&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Estos backends representan varias formas de uso.&lt;/p&gt;
&lt;p&gt;OpenRouter se parece más a una entrada agregadora de modelos, útil para probar distintos modelos comerciales y open source.&lt;/p&gt;
&lt;p&gt;DeepSeek conviene a quienes se preocupan por capacidad en chino, capacidad de código y coste.&lt;/p&gt;
&lt;p&gt;LM Studio, llama.cpp y Ollama se inclinan hacia la ruta de modelos locales. Sirven para ejecutar modelos en tu propia máquina o en un entorno de intranet, reducir dependencia de APIs externas y facilitar experimentos offline.&lt;/p&gt;
&lt;p&gt;NVIDIA NIM está más orientado a inferencia empresarial y despliegue con GPU.&lt;/p&gt;
&lt;h2 id=&#34;por-qué-un-anthropic-compatible-proxy&#34;&gt;Por qué un Anthropic-compatible proxy
&lt;/h2&gt;&lt;p&gt;Claude Code está diseñado alrededor de la interfaz y los hábitos de modelo de Anthropic.&lt;/p&gt;
&lt;p&gt;Si quieres conectarlo a otros modelos, el problema más directo es que las interfaces no coinciden:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Campos de solicitud distintos&lt;/li&gt;
&lt;li&gt;Nombres de modelo distintos&lt;/li&gt;
&lt;li&gt;Formatos de streaming distintos&lt;/li&gt;
&lt;li&gt;Expresión de tool use distinta&lt;/li&gt;
&lt;li&gt;Formatos de error distintos&lt;/li&gt;
&lt;li&gt;Límites de tokens y contexto distintos&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;El valor de la capa proxy está ahí.&lt;/p&gt;
&lt;p&gt;Mantiene la interfaz vista por Claude Code con una forma cercana a Anthropic y adapta el backend. Para el usuario, después de configurar el proxy, puede probar distintos modelos dentro del mismo flujo de Claude Code.&lt;/p&gt;
&lt;h2 id=&#34;escenarios-adecuados&#34;&gt;Escenarios adecuados
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;free-claude-code&lt;/code&gt; es adecuado para:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Querer usar el flujo de terminal de Claude Code&lt;/li&gt;
&lt;li&gt;Probar modelos no Anthropic dentro de Claude Code&lt;/li&gt;
&lt;li&gt;Reducir costes de llamadas de modelo&lt;/li&gt;
&lt;li&gt;Conectar Claude Code a OpenRouter&lt;/li&gt;
&lt;li&gt;Integrar DeepSeek u otros servicios de modelo compatibles&lt;/li&gt;
&lt;li&gt;Usar Ollama, LM Studio o llama.cpp para ejecutar modelos locales&lt;/li&gt;
&lt;li&gt;Configurar para un equipo una entrada unificada de proxy de modelos&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Si solo usas Claude Code oficial normalmente y no tienes necesidades especiales de provider, coste o despliegue local, quizá no necesites este tipo de proxy.&lt;/p&gt;
&lt;p&gt;Pero si comparas modelos con frecuencia o quieres que Claude Code acceda a modelos locales y de terceros, este tipo de herramienta es útil.&lt;/p&gt;
&lt;h2 id=&#34;diferencia-frente-a-usar-directamente-openrouter-u-ollama&#34;&gt;Diferencia frente a usar directamente OpenRouter u Ollama
&lt;/h2&gt;&lt;p&gt;Usar directamente OpenRouter, Ollama o LM Studio normalmente significa conversar con el modelo o llamarlo mediante API.&lt;/p&gt;
&lt;p&gt;El punto central de &lt;code&gt;free-claude-code&lt;/code&gt; no es sustituir esos servicios, sino conectarlos al flujo de desarrollo de Claude Code.&lt;/p&gt;
&lt;p&gt;La diferencia está en:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Sigues usando la experiencia de terminal de Claude Code&lt;/li&gt;
&lt;li&gt;La IA puede realizar tareas alrededor del repositorio de código&lt;/li&gt;
&lt;li&gt;El backend de modelo puede cambiarse por otro provider&lt;/li&gt;
&lt;li&gt;Los modelos locales también tienen oportunidad de entrar en el flujo de Claude Code&lt;/li&gt;
&lt;li&gt;La configuración se concentra en la capa proxy, no se cambia por separado en cada herramienta&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Por eso se parece más a un puente que a un nuevo cliente de chat.&lt;/p&gt;
&lt;h2 id=&#34;precauciones-con-modelos-locales&#34;&gt;Precauciones con modelos locales
&lt;/h2&gt;&lt;p&gt;Conectar Claude Code a modelos locales es atractivo, pero también tiene límites prácticos.&lt;/p&gt;
&lt;p&gt;Primero, diferencia de capacidad del modelo.&lt;/p&gt;
&lt;p&gt;Las tareas de Claude Code no son solo chat; incluyen entender código, planificar cambios, editar archivos y procesar salidas de comandos. Un modelo local pequeño no necesariamente puede completar estas tareas de forma estable.&lt;/p&gt;
&lt;p&gt;Segundo, ventana de contexto.&lt;/p&gt;
&lt;p&gt;Las tareas de código consumen mucho contexto. Si la ventana del modelo es demasiado pequeña, puede no leer archivos completos, perder restricciones o olvidar contexto durante varias rondas.&lt;/p&gt;
&lt;p&gt;Tercero, compatibilidad con tool use.&lt;/p&gt;
&lt;p&gt;El flujo de Claude Code depende de llamadas a herramientas y comportamiento estructurado. Aunque un backend pueda chatear, no necesariamente sigue bien protocolos de tool calling.&lt;/p&gt;
&lt;p&gt;Cuarto, velocidad y hardware.&lt;/p&gt;
&lt;p&gt;La velocidad del modelo local depende de la máquina, el método de cuantización y el tamaño del modelo. Si una tarea de código responde demasiado lento, la experiencia se degrada de forma notable.&lt;/p&gt;
&lt;p&gt;Por eso, los modelos locales son más adecuados para experimentos, tareas de bajo riesgo y escenarios concretos. Para tareas de código realmente complejas, todavía hay que elegir con cuidado según la capacidad del modelo.&lt;/p&gt;
&lt;h2 id=&#34;límites-de-uso&#34;&gt;Límites de uso
&lt;/h2&gt;&lt;p&gt;Este tipo de proyecto puede malinterpretarse fácilmente por el título, así que conviene aclarar los límites.&lt;/p&gt;
&lt;p&gt;Primero, no es cuota gratuita oficial de Claude Code.&lt;/p&gt;
&lt;p&gt;Solo reenvía las solicitudes de Claude Code a otros backends de modelos. Al usar OpenRouter, DeepSeek, NVIDIA NIM u otras APIs, sigues teniendo que cumplir precios, cuotas y condiciones de uso de esos servicios.&lt;/p&gt;
&lt;p&gt;Segundo, no es una herramienta para saltarse autorización.&lt;/p&gt;
&lt;p&gt;Al usar cualquier proxy, hay que cumplir las licencias y términos de Claude Code, del proveedor de modelo y del propio proyecto. No debería entenderse como una forma de evitar restricciones oficiales.&lt;/p&gt;
&lt;p&gt;Tercero, el proxy procesará el contenido de tus solicitudes.&lt;/p&gt;
&lt;p&gt;Código, salida de comandos y contexto del proyecto pueden pasar por el proxy y por el servicio backend. Al desplegarlo, hay que considerar logs, claves, red y límites de privacidad. Para código de empresa o proyectos sensibles, es mejor usar un entorno controlado.&lt;/p&gt;
&lt;p&gt;Cuarto, el rendimiento de distintos modelos puede variar mucho.&lt;/p&gt;
&lt;p&gt;La misma operación de Claude Code puede comportarse de forma completamente distinta al cambiar de modelo. No asumas que todos los modelos pueden sustituir a Claude.&lt;/p&gt;
&lt;h2 id=&#34;relación-con-proxies-como-litellm&#34;&gt;Relación con proxies como LiteLLM
&lt;/h2&gt;&lt;p&gt;Desde el punto de vista de diseño, &lt;code&gt;free-claude-code&lt;/code&gt; pertenece a la categoría de &amp;ldquo;proxies de interfaz compatible&amp;rdquo;.&lt;/p&gt;
&lt;p&gt;El objetivo común de estas herramientas es reducir el acoplamiento entre la aplicación superior y los servicios de modelos inferiores. La aplicación superior solo se enfrenta a una interfaz relativamente unificada, y los providers de abajo pueden cambiarse por configuración.&lt;/p&gt;
&lt;p&gt;Cada proyecto tiene un foco distinto. Algunos se orientan a gateway de modelos general, otros a OpenAI-compatible API, y otros se adaptan específicamente a herramientas como Claude Code.&lt;/p&gt;
&lt;p&gt;Lo interesante de &lt;code&gt;free-claude-code&lt;/code&gt; es que coloca el escenario objetivo directamente en Claude Code, no en un proxy de chat genérico.&lt;/p&gt;
&lt;h2 id=&#34;usuarios-adecuados&#34;&gt;Usuarios adecuados
&lt;/h2&gt;&lt;p&gt;Es más adecuado para usuarios con cierta capacidad de configuración:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Conocen Claude Code&lt;/li&gt;
&lt;li&gt;Saben configurar API key y provider de modelos&lt;/li&gt;
&lt;li&gt;Entienden cómo arrancar un proxy y variables de entorno&lt;/li&gt;
&lt;li&gt;Pueden diagnosticar problemas de red, puertos, nombres de modelo y streaming&lt;/li&gt;
&lt;li&gt;Quieren comparar el rendimiento de distintos modelos en tareas de código&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Si solo quieres algo listo para usar, la configuración oficial suele ser más tranquila.&lt;/p&gt;
&lt;p&gt;Si estás dispuesto a montar proxy, cambiar modelos, ajustar parámetros y quieres llevar Claude Code a más entornos de modelo, este proyecto merece estudio.&lt;/p&gt;
&lt;h2 id=&#34;referencia&#34;&gt;Referencia
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://github.com/Alishahryar1/free-claude-code&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Alishahryar1/free-claude-code&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;una-última-frase&#34;&gt;Una última frase
&lt;/h2&gt;&lt;p&gt;El valor de &lt;code&gt;free-claude-code&lt;/code&gt; no está en la palabra &amp;ldquo;free&amp;rdquo;, sino en construir un puente entre Claude Code y más backends de modelos.&lt;/p&gt;
&lt;p&gt;Cuando quieres conservar la experiencia de desarrollo de Claude Code y al mismo tiempo probar OpenRouter, DeepSeek, modelos locales o servicios de inferencia empresariales, este tipo de Anthropic-compatible proxy tiene sentido.&lt;/p&gt;
</description>
        </item>
        <item>
        <title>DeepSeek V4 Pro vs GPT-5.5: después de probar la interfaz, la escritura y la codificación, la brecha parece mayor de lo esperado</title>
        <link>https://www.knightli.com/es/2026/04/25/deepseek-v4-pro-vs-gpt-5-5-frontend-writing-code/</link>
        <pubDate>Sat, 25 Apr 2026 11:12:00 +0800</pubDate>
        
        <guid>https://www.knightli.com/es/2026/04/25/deepseek-v4-pro-vs-gpt-5-5-frontend-writing-code/</guid>
        <description>&lt;p&gt;Las comparaciones entre &lt;code&gt;DeepSeek V4 Pro&lt;/code&gt; y &lt;code&gt;GPT-5.5&lt;/code&gt; están recibiendo más atención últimamente. La razón ya no es si alguno de los modelos es utilizable. La verdadera pregunta es: &lt;strong&gt;cuando el trabajo recae en el desarrollo, la redacción y la codificación del frontend, ¿cuál es mejor para ser su herramienta principal?&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;Cuando la gente compara modelos como este, a menudo empiezan preguntando cuál es más fuerte.&lt;br&gt;
Pero la pregunta más útil suele ser diferente: &lt;strong&gt;en una tarea real, ¿cuál es más estable, más barata para comunicarse y con mayor probabilidad de producir algo que pueda seguir construyendo de inmediato?&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;Si simplificamos primero la conclusión, queda más o menos así:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Cuando desea un resultado más equilibrado y una experiencia productiva más completa, mucha gente todavía mira primero &lt;code&gt;GPT-5.5&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;Cuando necesita una iteración de alta frecuencia en chino, se preocupa más por el costo y desea ciclos de respuesta rápidos, &amp;ldquo;DeepSeek V4 Pro&amp;rdquo; se convierte en un candidato serio.&lt;/li&gt;
&lt;li&gt;Lo que realmente determina la experiencia a menudo no es el nombre del modelo en sí, sino el tipo de tarea, el enfoque de las indicaciones y si es necesario seguir revisándolo después.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Analicemos esto en los tres escenarios de comparación más comunes.&lt;/p&gt;
&lt;h2 id=&#34;1-tareas-frontend-la-verdadera-pregunta-no-es-si-puede-crear-una-página-sino-si-puede-seguir-mejorándola&#34;&gt;1. Tareas frontend: la verdadera pregunta no es si puede crear una página, sino si puede seguir mejorándola
&lt;/h2&gt;&lt;p&gt;El trabajo frontend parece ideal para comparaciones de modelos porque el resultado es fácil de ver.&lt;br&gt;
¿Se puede ejecutar la página? ¿Se ve bien? ¿Está limpia la estructura? Puedes juzgar todo eso rápidamente.&lt;/p&gt;
&lt;p&gt;Pero la verdadera diferencia no suele aparecer en si el primer borrador funciona. Aparece en preguntas como estas:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;¿Está la estructura lo suficientemente clara?&lt;/li&gt;
&lt;li&gt;¿La división del componente es natural?&lt;/li&gt;
&lt;li&gt;¿Cambiar una pieza accidentalmente rompe otra?&lt;/li&gt;
&lt;li&gt;¿Puede seguir la misma lógica de implementación en múltiples rondas de instrucciones?&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Es también por eso que muchas demostraciones de frontend que parecen impresionantes en la primera ronda no necesariamente se mantienen a la vanguardia en los flujos de trabajo reales.&lt;/p&gt;
&lt;p&gt;Si su tarea es algo como:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Generar rápidamente un prototipo de página ejecutable&lt;/li&gt;
&lt;li&gt;Redactar una idea de página de destino.&lt;/li&gt;
&lt;li&gt;Complete los estilos, botones, tarjetas, formularios y otros elementos básicos requeridos&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;entonces ambos modelos a menudo te acercarán bastante, y la diferencia está más en el estilo de salida.&lt;/p&gt;
&lt;p&gt;Pero si la tarea se convierte en:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Revisar repetidamente la interfaz de usuario durante varias rondas.&lt;/li&gt;
&lt;li&gt;Leer el código existente y continuar desde allí.&lt;/li&gt;
&lt;li&gt;Equilibrar la estructura de los componentes, la coherencia del estilo y la mantenibilidad.&lt;/li&gt;
&lt;li&gt;Convertir gradualmente una página estática en código de proyecto real.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;entonces lo que debes observar ya no es “quién luce mejor en la primera ronda”, sino “quién tiene menos probabilidades de quedarse dormido en la quinta ronda”.&lt;/p&gt;
&lt;p&gt;Entonces, en el trabajo frontend, la comparación clave no es si el modelo puede generar una página. Se trata de si, después de seguir agregando restricciones, aún puede mantener una estructura estable, nombres consistentes y costos de modificación manejables.&lt;/p&gt;
&lt;h2 id=&#34;2-tareas-de-escritura-la-verdadera-diferencia-no-es-cuánto-se-escribe-sino-qué-tan-estable-se-mantiene-el-estilo-y-qué-tan-bien-se-reescribe&#34;&gt;2. Tareas de escritura: la verdadera diferencia no es cuánto se escribe, sino qué tan estable se mantiene el estilo y qué tan bien se reescribe.
&lt;/h2&gt;&lt;p&gt;La escritura es otra área en la que la gente puede juzgar mal los modelos con mucha facilidad.&lt;/p&gt;
&lt;p&gt;Una razón importante es que los primeros borradores suelen verse bien desde ambos lados.&lt;br&gt;
La estructura es completa, los párrafos están ahí y el tono es lo suficientemente suave como para que sea fácil pensar que son básicamente similares.&lt;/p&gt;
&lt;p&gt;Pero tan pronto como avanzas la tarea un paso más, aparecen las diferencias:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;¿Puede comprender con precisión a su público objetivo?&lt;/li&gt;
&lt;li&gt;¿Puede cambiar de tono manteniendo el mismo tema?&lt;/li&gt;
&lt;li&gt;¿Se pierden puntos clave al reescribir?&lt;/li&gt;
&lt;li&gt;¿Se mantiene estable al comprimir, ampliar, retitular o reestructurar?&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;El mayor problema al escribir no suele ser “no puede escribir”, sino “escribió algo que aún necesita mucho arreglo”.&lt;/p&gt;
&lt;p&gt;Entonces, al comparar &amp;ldquo;DeepSeek V4 Pro&amp;rdquo; y &amp;ldquo;GPT-5.5&amp;rdquo;, el método más útil es no pedirles a cada uno que escriba un artículo. Se trata de ejecutar varias rondas como esta:&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;Escribe el primer borrador.&lt;/li&gt;
&lt;li&gt;Reescríbelo en un tono diferente.&lt;/li&gt;
&lt;li&gt;Comprímelo en una versión más corta.&lt;/li&gt;
&lt;li&gt;Modifíquelo para convertirlo en algo más adecuado para titulares basados en clics o distribución de búsqueda.&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;Si un modelo puede mantener intactos los puntos clave, la redacción estable y la estructura limpia durante esas rondas, entonces tiene mucho más valor en un flujo de trabajo de escritura real.&lt;/p&gt;
&lt;p&gt;En otras palabras, lo que realmente miden las tareas de escritura no es el “estilo literario”, sino la &lt;strong&gt;capacidad de revisión, el seguimiento de instrucciones y el sentimiento de colaboración continua&lt;/strong&gt;.&lt;/p&gt;
&lt;h2 id=&#34;3-tareas-de-codificación-la-brecha-real-se-muestra-en-la-estabilidad-de-la-cadena-larga&#34;&gt;3. Tareas de codificación: la brecha real se muestra en la estabilidad de la cadena larga
&lt;/h2&gt;&lt;p&gt;Las tareas de codificación exponen el nivel real de un modelo más fácilmente que el trabajo frontend, porque no se trata solo de generar resultados. Tienen que conectar con la realidad.&lt;/p&gt;
&lt;p&gt;Muy rápidamente, te encuentras con preguntas como:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;¿Puede comprender la estructura de un proyecto existente?&lt;/li&gt;
&lt;li&gt;¿Puede modificar varios archivos a la vez?&lt;/li&gt;
&lt;li&gt;¿Introduce nuevos problemas después de realizar cambios?&lt;/li&gt;
&lt;li&gt;¿Puede seguir depurando siguiendo registros y errores?&lt;/li&gt;
&lt;li&gt;Después de varias rondas, ¿todavía recuerda lo que ya cambió?&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;En este tipo de trabajo, lo que más preocupa a los usuarios no suele ser si un único fragmento de código parece elegante. Es: &lt;strong&gt;¿puede este modelo seguir avanzando en la tarea, en lugar de dejarme a mí limpiar el desorden?&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;Entonces, al comparar &lt;code&gt;DeepSeek V4 Pro&lt;/code&gt; y &lt;code&gt;GPT-5.5&lt;/code&gt;, lo más significativo a considerar generalmente no son indicaciones de codificación aisladas, sino un proceso más cercano al trabajo real:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Leer un repositorio existente&lt;/li&gt;
&lt;li&gt;Encuentra un error&lt;/li&gt;
&lt;li&gt;Modificar varios archivos relacionados&lt;/li&gt;
&lt;li&gt;Continuar corrigiendo según los mensajes de error.&lt;/li&gt;
&lt;li&gt;Resumir claramente el resultado al final.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Una vez que la tarea ingresa a ese tipo de flujo de trabajo continuo, la retención del contexto, los hábitos de ejecución, la calidad de la explicación y la tasa de retrabajo son más importantes que la calidad de la respuesta en un solo turno.&lt;/p&gt;
&lt;p&gt;Esta es también la razón por la que muchos usuarios eventualmente no se conforman con “usar un solo modelo para siempre” para codificar. En cambio, cambian su herramienta principal según la etapa de la tarea.&lt;/p&gt;
&lt;h2 id=&#34;4-lo-que-realmente-vale-la-pena-comparar-no-es-quién-gana-sino-qué-tareas-son-más-rentables-asignar-a-quién&#34;&gt;4. Lo que realmente vale la pena comparar no es quién gana, sino qué tareas son más rentables asignar a quién
&lt;/h2&gt;&lt;p&gt;Si pones &amp;ldquo;DeepSeek V4 Pro&amp;rdquo; y &amp;ldquo;GPT-5.5&amp;rdquo; uno al lado del otro y solo intentas elegir un campeón general, el resultado suele ser una conclusión vacía.&lt;/p&gt;
&lt;p&gt;Esto se debe a que las tareas reales no son un examen estándar:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Algunos son de una sola generación.&lt;/li&gt;
&lt;li&gt;Algunas son colaboraciones de múltiples rondas.&lt;/li&gt;
&lt;li&gt;Algunos están escritos en chino.&lt;/li&gt;
&lt;li&gt;Algunos son cambios de ingeniería.&lt;/li&gt;
&lt;li&gt;Algunos priorizan la velocidad&lt;/li&gt;
&lt;li&gt;Algunos priorizan la estabilidad&lt;/li&gt;
&lt;li&gt;Algunos priorizan el costo&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Entonces, el enfoque que se acerca más al uso real suele ser dividir por objetivo de la tarea:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Si desea una experiencia general más completa, una interacción más madura y un resultado general más estable, pruebe primero &lt;code&gt;GPT-5.5&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;Si desea experimentar con alta frecuencia en chino, iteración rápida y mejor relación calidad-precio, &amp;ldquo;DeepSeek V4 Pro&amp;rdquo; merece un lugar importante en su flujo de trabajo.&lt;/li&gt;
&lt;li&gt;Si la tarea en sí es de cadena larga, de múltiples rondas y colaborativa, no se detenga en el primer resultado; observe quién se mantiene más estable después de cinco rondas.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;En otras palabras, la verdadera pregunta no es “quién es absolutamente más fuerte”, sino ésta:&lt;br&gt;
&lt;strong&gt;para el trabajo frontend, la escritura y la codificación, ¿qué modelo parece más la herramienta más práctica para su etapa actual?&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id=&#34;5-cómo-realizar-una-comparación-que-realmente-signifique-algo&#34;&gt;5. Cómo realizar una comparación que realmente signifique algo
&lt;/h2&gt;&lt;p&gt;Si desea probar &lt;code&gt;DeepSeek V4 Pro&lt;/code&gt; y &lt;code&gt;GPT-5.5&lt;/code&gt; usted mismo, un método más confiable generalmente no es ejecutar una sola ronda, sino hacer algo como esto:&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;Dé a ambos modelos el mismo requisito inicial.&lt;/li&gt;
&lt;li&gt;Mantenga las mismas restricciones en ambos lados&lt;/li&gt;
&lt;li&gt;Continúe haciendo preguntas de seguimiento durante tres a cinco rondas.&lt;/li&gt;
&lt;li&gt;Registre la calidad de salida, la frecuencia de deriva y la cantidad de retrabajo&lt;/li&gt;
&lt;li&gt;Solo entonces compara velocidad, coste y usabilidad final.&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;Ese tipo de prueba te acercará mucho más al trabajo real que simplemente preguntar quién luce más impresionante en la primera ronda.&lt;/p&gt;
&lt;p&gt;Especialmente en frontend, escritura y codificación, lo que a menudo determina la experiencia real no es la línea de partida, sino &lt;strong&gt;quién puede quedarse contigo y ayudarte a terminar el trabajo&lt;/strong&gt;.&lt;/p&gt;
&lt;h2 id=&#34;6-una-forma-sencilla-de-recordarlo&#34;&gt;6. Una forma sencilla de recordarlo
&lt;/h2&gt;&lt;p&gt;Si solo quieres un resumen práctico, puedes recordarlo así:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;GPT-5.5&lt;/code&gt;: más como un espacio de trabajo predeterminado amplio, productivo y convencional&lt;/li&gt;
&lt;li&gt;&lt;code&gt;DeepSeek V4 Pro&lt;/code&gt;: más bien un competidor fuerte que vale la pena incorporar a los flujos de trabajo diarios en chino y al trabajo de prueba y error de alta frecuencia&lt;/li&gt;
&lt;li&gt;El verdadero punto de comparación: no un resultado llamativo en la primera ronda, sino quién se mantiene más estable y ahorra más esfuerzo después de múltiples rondas de revisión.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Entonces, en este tipo de comparación, lo que realmente importa nunca es simplemente “quién ganó”. Es este:&lt;br&gt;
&lt;strong&gt;Para sus tareas de frontend, escritura y codificación, ¿qué modelo facilita el progreso continuo, reduce el retrabajo y le brinda resultados más estables?&lt;/strong&gt;&lt;/p&gt;
</description>
        </item>
        <item>
        <title>Lanzamiento de la vista previa de DeepSeek-V4: contexto de 1M, dos modelos y notas de migración de API</title>
        <link>https://www.knightli.com/es/2026/04/24/deepseek-v4-preview-release/</link>
        <pubDate>Fri, 24 Apr 2026 22:39:46 +0800</pubDate>
        
        <guid>https://www.knightli.com/es/2026/04/24/deepseek-v4-preview-release/</guid>
        <description>&lt;p&gt;DeepSeek lanzó &lt;a class=&#34;link&#34; href=&#34;https://api-docs.deepseek.com/news/news260424&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Lanzamiento preliminar de DeepSeek V4&lt;/a&gt; el &lt;code&gt;2026-04-24&lt;/code&gt;. Según la página de anuncio oficial, la actualización se centra en algunos temas muy claros: &amp;ldquo;1M context&amp;rdquo;, una línea de dos modelos con &amp;ldquo;V4-Pro&amp;rdquo; y &amp;ldquo;V4-Flash&amp;rdquo;, optimización dedicada para escenarios de agentes y migración de modelos del lado API.&lt;/p&gt;
&lt;p&gt;Si reducimos el comunicado a una frase, la señal principal es la siguiente: DeepSeek no sólo está intentando crear un modelo más potente. Está impulsando el contexto ultralargo y las capacidades de los agentes hacia algo que esté listo para su implementación práctica.&lt;/p&gt;
&lt;h2 id=&#34;1-lo-que-se-lanzó-esta-vez&#34;&gt;1. Lo que se lanzó esta vez
&lt;/h2&gt;&lt;p&gt;Según la página oficial, &lt;code&gt;DeepSeek-V4 Preview&lt;/code&gt; incluye principalmente dos líneas de productos:&lt;/p&gt;
&lt;p&gt;-&lt;code&gt;DeepSeek-V4-Pro&lt;/code&gt;
-&lt;code&gt;DeepSeek-V4-Flash&lt;/code&gt;&lt;/p&gt;
&lt;p&gt;Las descripciones oficiales también son muy directas:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;DeepSeek-V4-Pro&lt;/code&gt;: &lt;code&gt;1.6T total / 49B parámetros activos&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;DeepSeek-V4-Flash&lt;/code&gt;: &lt;code&gt;284B en total / 13B de parámetros activos&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;El nombre ya deja clara la estrategia. Esta no es una actualización de un solo modelo. DeepSeek está lanzando un modelo de gama alta y un modelo más rentable al mismo tiempo.&lt;/p&gt;
&lt;p&gt;&amp;ldquo;V4-Pro&amp;rdquo; está posicionado alrededor del techo de rendimiento, y DeepSeek dice que puede competir con los mejores modelos de código cerrado del mundo. &lt;code&gt;V4-Flash&lt;/code&gt;, por el contrario, se posiciona en torno a la velocidad, la eficiencia y el menor costo, lo que lo hace más adecuado para cargas de trabajo que se preocupan más por la latencia y el precio de API.&lt;/p&gt;
&lt;h2 id=&#34;2-1m-contexto-es-el-título-más-visible&#34;&gt;2. &lt;code&gt;1M contexto&lt;/code&gt; es el título más visible
&lt;/h2&gt;&lt;p&gt;Una de las líneas más destacadas de la página oficial es: &lt;strong&gt;&amp;ldquo;Bienvenido a la era del contexto rentable de 1 millón de longitud&amp;rdquo;.&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;DeepSeek no se limita a decir que el modelo admite un contexto prolongado. Presenta &amp;ldquo;contexto 1M&amp;rdquo; como una capacidad predeterminada de esta generación. La página es explícita que:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;1M context&lt;/code&gt; es ahora el estándar predeterminado en todos los servicios oficiales de DeepSeek&lt;/li&gt;
&lt;li&gt;Tanto &lt;code&gt;V4-Pro&lt;/code&gt; como &lt;code&gt;V4-Flash&lt;/code&gt; admiten &lt;code&gt;contexto 1M&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;La importancia de esto no es sólo que puedas colocar más tokens. Afecta directamente a tareas como:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Comprender grandes bases de código&lt;/li&gt;
&lt;li&gt;Preguntas y respuestas de documentos extensos y síntesis de información.&lt;/li&gt;
&lt;li&gt;Flujos de trabajo de agentes de múltiples turnos&lt;/li&gt;
&lt;li&gt;Tareas complejas que abarcan múltiples archivos, herramientas y etapas.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Cuando la ventana de contexto es lo suficientemente grande, es menos probable que el modelo pierda el contexto a mitad del camino y vuelva a leer el material repetidamente. Esto es muy importante para la codificación agente y el trabajo de conocimiento complejo.&lt;/p&gt;
&lt;h2 id=&#34;3-qué-enfatiza-principalmente-v4-pro&#34;&gt;3. Qué enfatiza principalmente &lt;code&gt;V4-Pro&lt;/code&gt;
&lt;/h2&gt;&lt;p&gt;Según el texto de la página oficial, &amp;ldquo;DeepSeek-V4-Pro&amp;rdquo; se centra en tres cosas:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Capacidad de codificación agente&lt;/li&gt;
&lt;li&gt;conocimiento mundial&lt;/li&gt;
&lt;li&gt;Capacidad de razonamiento&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;La página dice que &amp;ldquo;V4-Pro&amp;rdquo; alcanza SOTA de código abierto en puntos de referencia de codificación agente. También afirma ser líder entre los modelos abiertos actuales en el conocimiento mundial, sólo por detrás de &amp;ldquo;Gemini-3.1-Pro&amp;rdquo;, y afirma que su rendimiento en matemáticas, &amp;ldquo;STEM&amp;rdquo; y codificación supera a los modelos abiertos actuales y rivaliza con los mejores modelos de código cerrado.&lt;/p&gt;
&lt;p&gt;En otras palabras, &amp;ldquo;V4-Pro&amp;rdquo; no se posiciona como un simple modelo de preguntas y respuestas. Está dirigido mucho más al razonamiento de alta dificultad, la codificación compleja y la ejecución de tareas a largo plazo.&lt;/p&gt;
&lt;h2 id=&#34;4-v4-flash-no-es-solo-una-versión-reducida&#34;&gt;4. &lt;code&gt;V4-Flash&lt;/code&gt; no es solo una versión reducida
&lt;/h2&gt;&lt;p&gt;Otro punto destacable es que DeepSeek no presenta &lt;code&gt;V4-Flash&lt;/code&gt; como modelo de gama baja. Más bien, subraya que el modelo ya es lo suficientemente sólido para muchas tareas prácticas.&lt;/p&gt;
&lt;p&gt;Según el anuncio, &lt;code&gt;V4-Flash&lt;/code&gt;:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Tiene una capacidad de razonamiento cercana a &amp;ldquo;V4-Pro&amp;rdquo;.&lt;/li&gt;
&lt;li&gt;Funciona a la par con &lt;code&gt;V4-Pro&lt;/code&gt; en tareas simples de agente&lt;/li&gt;
&lt;li&gt;Utiliza menos parámetros, responde más rápido y es más económico para el uso de API&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Eso significa que la alineación no es una estructura muy dividida de &amp;ldquo;un buque insignia, un nivel de entrada&amp;rdquo;. Está más cerca de:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;V4-Pro&lt;/code&gt;: optimización para un mayor rendimiento y un techo más resistente&lt;/li&gt;
&lt;li&gt;&lt;code&gt;V4-Flash&lt;/code&gt;: optimización para una menor latencia y una mejor rentabilidad&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Para los desarrolladores, esta suele ser una combinación más práctica, porque muchas tareas de producción no necesitan el modelo más sólido en teoría. Necesitan algo lo suficientemente fuerte, lo suficientemente rápido y lo suficientemente asequible.&lt;/p&gt;
&lt;h2 id=&#34;5-el-lanzamiento-pone-un-claro-énfasis-en-la-optimización-de-los-agentes&#34;&gt;5. El lanzamiento pone un claro énfasis en la optimización de los agentes.
&lt;/h2&gt;&lt;p&gt;Otra señal fuerte de la página de anuncios es que DeepSeek está impulsando activamente &amp;ldquo;V4&amp;rdquo; hacia casos de uso de agentes.&lt;/p&gt;
&lt;p&gt;La página dice que &amp;ldquo;DeepSeek-V4&amp;rdquo; se ha integrado perfectamente con varios agentes líderes de IA, incluidos:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Código Claude&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;OpenClaw&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Código Abierto&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;DeepSeek también dice que &amp;ldquo;V4&amp;rdquo; ya se está utilizando en sus flujos de trabajo de codificación agentes internos.&lt;/p&gt;
&lt;p&gt;Eso significa que el objetivo ya no se limita al chat o a la finalización ordinaria. El modelo se está posicionando para flujos de trabajo más largos: leer código, comprender la estructura, llamar a herramientas, generar resultados y conectar todo el proceso.&lt;/p&gt;
&lt;p&gt;Si ha estado prestando atención a los agentes de codificación recientemente, vale la pena señalarlo. Los proveedores de modelos ya no compiten sólo en base a puntos de referencia. También compiten sobre si el modelo realmente puede integrarse en flujos de trabajo reales.&lt;/p&gt;
&lt;h2 id=&#34;6-la-innovación-estructural-está-al-servicio-de-la-eficiencia-en-el-contexto-a-largo-plazo&#34;&gt;6. La innovación estructural está al servicio de la eficiencia en el contexto a largo plazo.
&lt;/h2&gt;&lt;p&gt;En el aspecto técnico, la página resume el trabajo estructural de este lanzamiento como:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;compresión por token&lt;/li&gt;
&lt;li&gt;&lt;code&gt;DSA (Atención escasa de DeepSeek)&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;La dirección es clara: hacer que el contexto largo sea más barato y más eficiente, al mismo tiempo que se reducen los costos de computación y memoria tanto como sea posible.&lt;/p&gt;
&lt;p&gt;La página del anuncio no entra en detalles técnicos completos, pero al menos sugiere que DeepSeek no depende únicamente del escalamiento por fuerza bruta para admitir ventanas más largas. También está realizando optimizaciones a nivel de arquitectura específicamente para la eficiencia en contextos prolongados.&lt;/p&gt;
&lt;p&gt;Para los usuarios reales, eso a menudo es más importante que simplemente ver un número de contexto mayor, porque la usabilidad real depende de algo más que si &amp;ldquo;1M&amp;rdquo; está técnicamente disponible. También depende de:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Si la velocidad sigue siendo aceptable&lt;/li&gt;
&lt;li&gt;Si el costo sigue siendo aceptable&lt;/li&gt;
&lt;li&gt;Si las tareas de contexto largo permanecen estables en la práctica&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;7-la-api-ya-está-disponible-pero-la-migración-del-modelo-es-importante&#34;&gt;7. La API ya está disponible, pero la migración del modelo es importante
&lt;/h2&gt;&lt;p&gt;La página oficial indica claramente que la API está disponible hoy.&lt;/p&gt;
&lt;p&gt;La ruta de migración también es relativamente sencilla:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Mantener la misma &lt;code&gt;base_url&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;Cambie el nombre del modelo a &lt;code&gt;deepseek-v4-pro&lt;/code&gt; o &lt;code&gt;deepseek-v4-flash&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;La página también dice que ambos modelos admiten:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Contexto 1M&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;Modos duales &amp;ldquo;Pensamiento / No pensamiento&amp;rdquo;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Compleciones de Chat OpenAI&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;API antrópicas&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Eso significa que si ya utiliza la API de DeepSeek, la ruta de actualización no es especialmente difícil. El trabajo principal es actualizar los nombres de los modelos y validar el comportamiento.&lt;/p&gt;
&lt;h2 id=&#34;8-el-calendario-de-jubilación-para-modelos-antiguos-es-explícito&#34;&gt;8. El calendario de jubilación para modelos antiguos es explícito.
&lt;/h2&gt;&lt;p&gt;Para los desarrolladores, uno de los detalles más importantes de la página es en realidad el aviso de retirada de modelos más antiguos.&lt;/p&gt;
&lt;p&gt;DeepSeek dice explícitamente:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;chat de búsqueda profunda&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;razonador de búsqueda profunda&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;quedará completamente retirado y será inaccesible después del &lt;strong&gt;24 de julio de 2026 a las 15:59 UTC&lt;/strong&gt;.
La página también señala que estos dos modelos están siendo encaminados actualmente a los modos de pensamiento y no pensamiento de &amp;ldquo;deepseek-v4-flash&amp;rdquo;.&lt;/p&gt;
&lt;p&gt;Eso significa que si su proyecto todavía hace referencia directa a &lt;code&gt;deepseek-chat&lt;/code&gt; o &lt;code&gt;deepseek-reasoner&lt;/code&gt;, ahora es el momento de planificar la migración en lugar de esperar hasta que se acerque la fecha de cierre formal.&lt;/p&gt;
&lt;h2 id=&#34;9-por-qué-vale-la-pena-leer-este-comunicado&#34;&gt;9. Por qué vale la pena leer este comunicado
&lt;/h2&gt;&lt;p&gt;Si comprimimos la actualización en algunas conclusiones principales, se ven así:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;DeepSeek está convirtiendo el &amp;ldquo;contexto 1M&amp;rdquo; de una característica premium a un estándar predeterminado&lt;/li&gt;
&lt;li&gt;La estrategia de dos modelos es más clara: uno apunta al techo de rendimiento, el otro apunta a la velocidad y la rentabilidad.&lt;/li&gt;
&lt;li&gt;La capacidad del agente se ha trasladado a un papel muy central.&lt;/li&gt;
&lt;li&gt;La ruta de actualización de API es relativamente directa, pero el cronograma de retiro del modelo antiguo necesita atención pronto.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Para los usuarios generales, el cambio más visible puede ser que los documentos largos, los contextos de código largos y los flujos de trabajo largos sean más fáciles de encajar en una sola sesión.&lt;br&gt;
Para los desarrolladores, el punto más importante es que si ya están creando agentes, asistentes de codificación, flujos de trabajo de conocimiento o canales de automatización complejos, esta generación está muy claramente diseñada para esos escenarios.&lt;/p&gt;
&lt;p&gt;Esta no es sólo una actualización rutinaria del modelo de DeepSeek. Se lee más como una declaración más clara de la próxima dirección de su producto: &lt;strong&gt;contexto ultralargo, optimización de agentes y preparación de API más práctica.&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id=&#34;enlaces-relacionados&#34;&gt;Enlaces relacionados
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;Página oficial de noticias de DeepSeek: &lt;a class=&#34;link&#34; href=&#34;https://api-docs.deepseek.com/news/news260424&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://api-docs.deepseek.com/news/news260424&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;Informe técnico: &lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;Pesos abiertos: &lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/collections/deepseek-ai/deepseek-v4&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://huggingface.co/collections/deepseek-ai/deepseek-v4&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        
    </channel>
</rss>
