DeepSeek on KnightLi Blog

Ejecutar DeepSeek 4 en local: el experimento ds4 de Antirez en Apple Silicon Mac

Mon, 11 May 2026 08:51:37 +0800

Antirez ha publicado un nuevo proyecto open source: ds4. No es un framework LLM de propósito general, sino un motor de inferencia local para DeepSeek V4 Flash, centrado en Apple Silicon y el backend Metal.

URL del proyecto: https://github.com/antirez/ds4

Qué es ds4

ds4 tiene un objetivo muy claro: ejecutar DeepSeek V4 Flash localmente en un Mac.

Actualmente ofrece tres formas de uso:

CLI interactiva.
HTTP server.
Un modo Agent experimental.

Por su posicionamiento, se parece más a un proyecto de inferencia profundamente optimizado para un modelo específico que a un reemplazo de herramientas generales como llama.cpp, Ollama o vLLM.

Por qué merece atención

Hay tres razones principales por las que este tipo de proyecto merece atención.

La primera es que su autor es Antirez, creador de Redis. Lleva mucho tiempo interesado en sistemas de bajo nivel, rendimiento y herramientas simples, y sus proyectos suelen tener un estilo bastante directo.

La segunda es que DeepSeek V4 Flash apunta a una inferencia eficiente. Si la experiencia local es lo bastante buena, puede resultar muy atractivo para usuarios de Mac.

La tercera es que ds4 apunta directamente a Apple Metal. En lugar de intentar soportar todas las plataformas primero y optimizar después, parece buscar profundidad en un escenario muy definido.

Para quién es

ds4 encaja mejor con usuarios que:

Usan un Apple Silicon Mac.
Quieren ejecutar DeepSeek V4 Flash en local.
Se interesan por el rendimiento de inferencia con Metal.
Están dispuestos a probar un proyecto en fase alpha.
Quieren estudiar motores de inferencia ligeros y detalles de ejecución de modelos.

Si tu objetivo es un despliegue estable, ejecución multiplataforma o una infraestructura compatible con OpenAI API, probablemente no sea la primera opción en esta etapa. Tiene más sentido como herramienta experimental y como proyecto técnico para observar.

Cómo usarlo

El flujo básico que muestra el README del proyecto es compilar primero y ejecutar después.

1
2
3

git clone https://github.com/antirez/ds4.git
cd ds4
make

Ejecución interactiva:

./ds4

Iniciar el HTTP server:

`1`	`./ds4 --server`

Modo Agent:

`1`	`./ds4 --agent`

Para los parámetros concretos y la preparación de los archivos del modelo, conviene seguir el README del repositorio, porque el proyecto todavía cambia con rapidez.

Riesgos actuales

ds4 todavía está en una etapa temprana, así que conviene ajustar expectativas antes de usarlo:

Las funciones pueden estar incompletas.
Los parámetros, formatos de modelo y comportamientos de línea de comandos pueden cambiar.
La compatibilidad gira principalmente alrededor de Apple Silicon y Metal.
El modo Agent es más experimental y no es adecuado para usarlo directamente en producción.
Si surge un problema, quizá tengas que leer el README, los issues o el código fuente por tu cuenta.

En otras palabras, ahora mismo se parece más a un experimento open source que vale la pena probar que a una herramienta de un clic para usuarios generales.

Diferencias frente a herramientas de inferencia generales

Las herramientas de inferencia generales suelen buscar compatibilidad amplia con formatos de modelo, plataformas, backends y APIs. ds4 toma un camino más estrecho: ejecutar DeepSeek V4 Flash en local con Metal.

Esa decisión tiene ventajas y costes.

La ventaja es que la implementación puede mantenerse enfocada, lo que facilita optimizar rendimiento y experiencia alrededor de un único objetivo. El coste es un alcance limitado: no está pensado para ejecutar todo tipo de modelos ni para sustituir una plataforma completa de despliegue.

Si ya usas llama.cpp u Ollama, ds4 puede servir como herramienta complementaria de pruebas, no como sustituto inmediato de tu flujo de trabajo actual.

Resumen

Lo interesante de ds4 no es que sea otra herramienta local para grandes modelos. Lo interesante es que reduce mucho su alcance: DeepSeek V4 Flash, Apple Silicon, Metal e inferencia local.

Si tienes un Mac adecuado y te apetece experimentar con un proyecto temprano, vale la pena seguir su rendimiento, su forma de soportar modelos y la evolución de sus capacidades de server/agent. Para entornos de producción, es mejor observar un poco más y evaluarlo cuando las interfaces y la forma de uso sean más estables.

Referencias

Proyecto en GitHub: https://github.com/antirez/ds4

DeepSeek-TUI: ejecuta un agente de programación DeepSeek en la terminal

Fri, 08 May 2026 13:41:15 +0800

DeepSeek-TUI es un agente de programación con IA que corre en la terminal. Está diseñado alrededor de modelos DeepSeek V4 y se inicia con el comando deepseek. Dentro de una TUI puede leer y editar archivos, ejecutar comandos shell, buscar en la web, gestionar git, conectar servidores MCP y coordinar subagentes.

Es más un espacio de trabajo de terminal que un chat CLI simple. Combina lectura de código, edición de archivos, comandos, diagnósticos, recuperación de sesión y rollback del workspace.

El repositorio está escrito principalmente en Rust y usa licencia MIT.

Para quién es

Sirve para desarrolladores que prefieren trabajar en terminal y quieren usar modelos DeepSeek en tareas locales reales.

Cambios de código y análisis de proyectos.
Trabajo sin abrir un IDE completo.
Lectura y modificación de un workspace local.
Modos Plan, Agent y YOLO.
Guardar y reanudar sesiones largas.
Revertir cambios del workspace.
Integrar MCP, diagnósticos LSP, HTTP/SSE runtime API y skills.

Para preguntas simples, un cliente web o CLI ligero basta. DeepSeek-TUI tiene más sentido cuando el modelo debe formar parte del flujo de desarrollo local.

Instalación

Con npm:

1
2
3

npm install -g deepseek-tui
deepseek --version
deepseek --model auto

El paquete npm es un instalador/wrapper que descarga binarios Rust precompilados. Requiere Node.js >=18.

Con Cargo:

1
2

cargo install deepseek-tui-cli --locked
cargo install deepseek-tui --locked

Con Homebrew:

1
2

brew tap Hmbown/deepseek-tui
brew install deepseek-tui

También hay binarios en GitHub Releases para Linux x64/ARM64, macOS x64/ARM64 y Windows x64.

Docker:

docker run --rm -it \
  -e DEEPSEEK_API_KEY \
  -v "$PWD:/workspace" \
  ghcr.io/hmbown/deepseek-tui:latest

Configurar la API Key

En el primer inicio, DeepSeek-TUI pide la API key y la guarda en:

`1`	`~/.deepseek/config.toml`

También puedes configurarla así:

1
2

deepseek auth set --provider deepseek
deepseek auth status

O usar variable de entorno:

1
2

export DEEPSEEK_API_KEY="YOUR_KEY"
deepseek

Comprueba la instalación:

`1`	`deepseek doctor`

Para borrar la clave guardada:

`1`	`deepseek auth clear --provider deepseek`

Auto mode

`1`	`deepseek --model auto`

En la TUI:

`1`	`/model auto`

Auto mode decide dos cosas:

Modelo: deepseek-v4-flash o deepseek-v4-pro
Thinking: off, high o max

Antes del turno real, hace una llamada pequeña de enrutamiento para analizar la petición y el contexto. Las tareas simples pueden usar Flash con thinking desactivado; tareas complejas pueden subir a Pro o mayor thinking.

auto es local a DeepSeek-TUI. La API upstream recibe el modelo concreto elegido.

Modos

Modo	Uso
Plan	Exploración y planificación de solo lectura
Agent	Modo interactivo con aprobaciones
YOLO	Autoaprobación en workspaces confiables

YOLO es rápido pero riesgoso. Úsalo solo en ramas temporales o directorios de prueba.

Herramientas

Incluye lectura/escritura de archivos, apply patch, shell, git, web search/browse, subagentes, MCP, diagnósticos LSP, guardado/reanudación de sesiones, rollback del workspace, cola de tareas durable, HTTP/SSE runtime API y sistema de skills.

Los diagnósticos LSP ayudan a devolver errores de rust-analyzer, pyright, typescript-language-server, gopls o clangd al modelo después de editar. El rollback usa snapshots side-git y comandos como /restore y revert_turn, pero los commits normales de git siguen siendo importantes.

Comandos comunes

deepseek
deepseek "explain this function"
deepseek --model deepseek-v4-flash "summarize"
deepseek --model auto "fix this bug"
deepseek --yolo
deepseek auth set --provider deepseek
deepseek doctor
deepseek doctor --json
deepseek models
deepseek sessions
deepseek resume --last
deepseek resume <SESSION_ID>
deepseek fork <SESSION_ID>
deepseek serve --http
deepseek serve --acp
deepseek pr <N>
deepseek mcp list
deepseek mcp validate
deepseek update

Zed y ACP

{
  "agent_servers": {
    "DeepSeek": {
      "type": "custom",
      "command": "deepseek",
      "args": ["serve", "--acp"],
      "env": {}
    }
  }
}

El README indica que ACP permite nuevas sesiones y respuestas a prompts, pero la edición con herramientas y la repetición de checkpoints aún no están expuestas.

Configuración y proveedores

Configuración de usuario:

`1`	`~/.deepseek/config.toml`

Overlay de proyecto:

`1`	`<workspace>/.deepseek/config.toml`

Campos como api_key, base_url, provider y mcp_config_path no se permiten en el overlay del proyecto.

Endpoint compatible con OpenAI:

1
2

deepseek auth set --provider openai --api-key "YOUR_OPENAI_COMPATIBLE_API_KEY"
OPENAI_BASE_URL="https://openai-compatible.example/v4" deepseek --provider openai --model glm-5

Ollama:

1
2

ollama pull deepseek-coder:1.3b
deepseek --provider ollama --model deepseek-coder:1.3b

Resumen

DeepSeek-TUI reúne DeepSeek V4, TUI, llamadas a herramientas, diagnósticos LSP, recuperación de sesiones, rollback, MCP y skills en un flujo Rust de terminal. No es el cliente más ligero, pero su valor está en pasar del chat al desarrollo local ejecutable.

Referencias

Despliegue privado local de DeepSeek V4: elegir entre chips nacionales y clusters de GPU de consumo

Fri, 08 May 2026 09:39:35 +0800

Tras el lanzamiento de DeepSeek V4, muchas empresas empezaron a hacerse una pregunta: ¿se puede evitar una API externa y desplegar el modelo en un centro de datos propio, una nube privada o un cluster dedicado?

La necesidad es muy real. Finanzas, sanidad, gobierno, fabricacion, legal y equipos de I+D a menudo no pueden enviar documentos internos, codigo, contratos, tickets o datos de clientes directamente a modelos de nube publica. En estos escenarios, el atractivo de DeepSeek V4 no esta solo en la capacidad del modelo, sino en que ofrece a las empresas una opcion mas cercana a una infraestructura LLM controlable.

Sin embargo, desplegar DeepSeek V4 localmente no es tan simple como descargar el modelo y buscar unas cuantas GPU. Especialmente en modelos MoE muy grandes como Pro, el numero total de parametros, parametros activos, longitud de contexto, KV cache, concurrencia y framework de inferencia determinan directamente el coste de hardware. Lo que una empresa debe hacer no es perseguir a ciegas la version completa, sino confirmar primero que forma de despliegue necesita el negocio.

Aclarar primero el objetivo del despliegue

El despliegue privado local en empresas suele tener tres objetivos:

Que los datos no salgan del dominio: documentos internos, codigo, materiales de clientes, logs y bases de conocimiento no abandonan el entorno empresarial.
Estabilidad y control: servicios de modelo, permisos, auditoria, logs y ritmo de actualizaciones quedan bajo control de la empresa.
Reducir coste a largo plazo: con llamadas frecuentes, la inferencia local puede ser mas controlable que comprar API externas durante mucho tiempo.

Si solo unos pocos empleados preguntan de vez en cuando, el despliegue local no siempre compensa. La privatizacion encaja mejor con escenarios frecuentes, estables, sensibles en datos y con flujos claros, por ejemplo:

Preguntas sobre una base de conocimiento interna.
Revision de codigo y asistentes de desarrollo.
Resumen de tickets de atencion al cliente.
Analisis de contratos, historias clinicas e informes.
Asistentes para consultas de bases de datos.
Automatizacion de flujos con Agent.

Estos escenarios comparten rasgos: datos sensibles, llamadas estables y posibilidad de incorporarse a la gobernanza empresarial mediante permisos y logs.

No perseguir Pro completo desde el primer dia

Las versiones comunes de DeepSeek V4 incluyen Pro y Flash. Segun materiales publicos, Pro se orienta a razonamiento mas fuerte y tareas Agent complejas, mientras Flash enfatiza coste y velocidad de respuesta. Al elegir, una empresa no deberia asumir que todo el negocio necesita Pro.

Puedes dividir por complejidad de tarea:

Preguntas simples, resumen, clasificacion y generacion de etiquetas: priorizar Flash o modelos mas pequenos.
RAG para bases de conocimiento internas: Flash cubre muchos escenarios; RAG, permisos y calidad de recuperacion importan mas.
Code Agents, razonamiento complejo y analisis de contexto largo: entonces evaluar Pro.
Tareas de alto valor y baja frecuencia: se puede usar Pro, pero no necesariamente con alta concurrencia.
Asistentes de oficina comunes: no hace falta ocupar durante mucho tiempo los recursos de inferencia mas caros.

La ventaja de los modelos MoE es que cada inferencia solo activa una parte de los parametros, pero eso no significa que la presion de hardware sea pequena. Almacenamiento de pesos, paralelismo de expertos, comunicacion de red, cache de contexto y planificacion concurrente siguen siendo pesados. Especialmente con contexto de nivel 1M token, lo que consume recursos no suele ser una respuesta aislada, sino el contexto largo, la concurrencia multiusuario y las sesiones persistentes.

Ruta de chips nacionales: adecuada para nube privada empresarial

Si una empresa ya tiene un pool de computo nacional, o requisitos de Xinchuang, cumplimiento o control de cadena de suministro, puede evaluar primero chips nacionales como Ascend y Cambricon.

Las ventajas de esta ruta son:

Encaja mejor con requisitos de localizacion y control de cadena de suministro.
Es adecuada para centros de datos empresariales, nubes dedicadas y proyectos de gobierno/empresa.
Facilita unificar permisos, auditoria, aislamiento de recursos y operaciones.
Es mas amable para servicios estables a largo plazo.

Pero la ruta de chips nacionales tambien requiere mirar tres problemas reales.

Primero, adaptacion del framework. Que el modelo pueda ejecutarse no depende solo de la potencia del chip, sino de si el framework de inferencia, operadores, bibliotecas de comunicacion, formatos de cuantizacion, paralelismo de expertos MoE y optimizacion de contexto largo estan maduros.

Segundo, experiencia de ingenieria. La empresa necesita mas que “arranco correctamente”; necesita servicio estable: multiinquilino, limitacion de tasa, monitorizacion, recuperacion ante fallos, despliegues grises, auditoria de logs y aislamiento de permisos.

Tercero, diferencias de ecosistema. El mismo modelo no tendra exactamente el mismo rendimiento, precision, soporte de cuantizacion y herramientas de despliegue en NVIDIA, Ascend, Cambricon u otras plataformas. Antes de producción hay que hacer pruebas de carga reales, no mirar solo la potencia nominal.

Por tanto, los chips nacionales encajan mejor con empresas de presupuesto claro, requisitos altos de cumplimiento y voluntad de invertir en ingenieria de plataforma. No es la ruta mas facil, pero puede ser la que mejor encaje con la gobernanza a largo plazo.

Clusters de GPU de consumo: adecuados para pilotos y equipos pequenos

Si el objetivo es validar primero el valor de negocio, un cluster de GPU de consumo es mas facil para empezar. GPU como RTX 4090, RTX 5090, RTX 3090 y RTX 3060 12GB tienen mas herramientas comunitarias, modelos cuantizados y referencias de inferencia local, por lo que el coste de prueba y error es menor.

La ruta de GPU de consumo encaja con:

Pilotos internos de equipos de I+D.
Preguntas sobre bases de conocimiento en pymes.
Asistentes de codigo de baja concurrencia.
Procesamiento offline de documentos.
Herramientas internas sin requisitos estrictos de SLA.

Pero tambien tiene limites claros:

La VRAM es pequena y cuesta alojar directamente un modelo grande completo.
La comunicacion multi-GPU es debil, y la comunicacion entre maquinas es mas complicada.
La estabilidad a plena carga durante largo tiempo es peor que en soluciones de servidor.
Chasis, alimentacion, refrigeracion, drivers y operaciones se convierten en costes ocultos.
No conviene prometer alta disponibilidad empresarial desde el principio.

Un enfoque mas realista es ejecutar primero Flash, versiones destiladas, versiones cuantizadas o modelos pequenos en GPU de consumo, hacer funcionar el flujo de negocio y decidir despues si migrar a GPU de servidor o a una plataforma de computo nacional tras validar volumen de llamadas, efecto y gobernanza de datos.

Posible arquitectura de despliegue

Una arquitectura privada empresarial relativamente estable puede dividirse en seis capas:

Capa de modelo: DeepSeek V4 Pro, V4 Flash o modelos destilados mas pequenos segun la tarea.
Capa de inferencia: SGLang, vLLM, llama.cpp, stacks de inferencia NPU de fabricantes o servicios propios.
Capa de gateway: autenticacion unificada, limitacion de tasa, auditoria, enrutamiento de modelos y logs de llamadas.
Capa de conocimiento: base vectorial, busqueda de texto completo, analisis de documentos, filtrado por permisos y RAG.
Capa de aplicacion: atencion al cliente, asistentes de codigo, analisis de documentos, preguntas sobre informes y flujos Agent.
Capa de operaciones: monitorizacion, alertas, estadisticas de coste, despliegues grises, rollback y auditoria de seguridad.

Las capas que mas se subestiman son el gateway y la capa de conocimiento. Muchos proyectos fallan no porque el modelo sea inutilizable, sino porque permisos, recuperacion, logs, gestion de contexto, plantillas de prompt y flujos de negocio no estan bien hechos.

Al desplegar LLM dentro de una empresa, el modelo debe tratarse como una capacidad de infraestructura, no como una pagina de chat aislada. El valor real aparece cuando el modelo entra en los flujos y puede procesar de forma estable los datos y tareas propios de la empresa.

Criterios para elegir hardware

El hardware no debe evaluarse solo por “si puede correr”, sino tambien por “si puede prestar servicio de forma estable”.

Puedes elegir por etapas:

Etapa de validacion

El objetivo es demostrar si merece la pena hacer el negocio.

Usar 1-4 GPU de consumo.
Priorizar Flash, modelos pequenos, modelos destilados o modelos cuantizados.
Mantener baja la concurrencia y centrarse en la tasa de finalizacion de tareas.
No prometer alta disponibilidad.

En esta etapa no conviene comprar hardware a gran escala demasiado pronto. Primero confirma si los empleados realmente lo usan, si el negocio ahorra tiempo y si las respuestas pueden entrar en el flujo.

Etapa piloto

El objetivo es que un departamento o una linea de negocio lo use de forma estable.

Usar 4-16 GPU o un conjunto de nodos NPU nacionales.
Agregar gateway unificado, logs y control de permisos.
Construir RAG, analisis de documentos, enrutamiento de modelos y cache.
Empezar a medir tokens, concurrencia, latencia y tasa de fallos.

En esta etapa hay que empezar a cuidar operaciones. El efecto del modelo es solo una parte; estabilidad, coste y gobernanza de datos son igual de importantes.

Etapa de produccion

El objetivo es entrar en servicio empresarial.

Usar GPU de servidor, clusters de computo nacional o pools de recursos de nube privada.
Establecer multiples replicas, limitacion de tasa, failover y planificacion de capacidad.
Enrutar modelos por tarea: tareas simples a modelos ligeros, tareas complejas a Pro.
Conectar con sistemas de identidad, auditoria y politicas de seguridad de la empresa.

En produccion no se recomienda enviar todas las solicitudes al modelo mas fuerte. Un enrutamiento razonable suele ahorrar mas dinero que acumular hardware.

Como elegir framework de inferencia

Modelos como DeepSeek V4 exigen mucho al framework de inferencia. Cuando intervienen MoE, contexto largo, atencion dispersa, cuantizacion y paralelismo multi-GPU, la madurez del framework afecta directamente velocidad y estabilidad.

Las opciones comunes pueden entenderse asi:

SGLang: adecuado para equipos que buscan inferencia de alto rendimiento, Agent, llamadas multi-turno a herramientas y orquestacion de servicios complejos.
vLLM: ecosistema maduro, adecuado para servicios LLM generales, pero el soporte concreto depende de la version y del progreso de adaptacion del modelo.
llama.cpp: mas adecuado para modelos pequenos, modelos cuantizados y despliegue en edge; no para alojar directamente un MoE enorme completo.
Stacks de inferencia NPU nacionales: adecuados para Xinchuang y entornos de computo nacional, pero hay que verificar operadores, cuantizacion y contexto largo.

No elijas framework solo por benchmark. Una empresa deberia probar sus entradas reales: longitud de documentos internos, concurrencia, longitud media de salida, tasa de acierto de RAG, numero de llamadas a herramientas de Agent y reintentos tras fallos.

La seguridad de datos debe hacerse fuera del modelo

El despliegue privado no significa seguridad automatica. Ejecutar el modelo localmente solo resuelve una parte de si los datos salen de la empresa.

Tambien hay que completar:

Cuentas y permisos: cada departamento solo puede acceder a su propia base de conocimiento.
Auditoria de logs: quien pregunto que, que modelo se llamo y que documentos se consultaron.
Enmascaramiento de datos: informacion de clientes, numeros de documento, telefonos, importes de contrato y otros campos sensibles deben tratarse.
Seguridad de prompts: evitar que usuarios eludan permisos o filtren prompts de sistema mediante prompts.
Revision de salidas: en escenarios importantes debe haber revision humana o por reglas.
Ciclo de vida de datos: documentos subidos, indices vectoriales, cache y registros de sesion deben poder eliminarse.

Para construir LLM locales, la empresa no puede involucrar solo al equipo de algoritmos. Seguridad, legal, operaciones y responsables de negocio tambien deben participar; si no, los riesgos se concentraran tras el lanzamiento.

El coste no son solo las GPU

El coste del despliegue local suele subestimarse. Ademas de GPU o NPU, hay que contar:

Servidores, racks, alimentacion, refrigeracion y red.
Almacenamiento y copias.
Adaptacion de framework de inferencia y desarrollo de ingenieria.
Monitorizacion operativa y gestion de incidentes.
Actualizacion de modelos, rollback y pruebas de compatibilidad.
Auditoria de seguridad y sistemas de permisos.
Prompts, RAG y flujos de trabajo del lado del negocio.

Si el volumen de llamadas es bajo, una API externa puede ser mas barata. Si el volumen es alto, los datos son sensibles y el flujo es estable, el despliegue local amortiza mejor el coste.

Una estrategia mas razonable es el despliegue hibrido:

Datos muy sensibles usan modelos locales.
Tareas generales de baja sensibilidad pueden usar API externas.
Tareas simples usan modelos pequenos.
Tareas complejas usan DeepSeek V4 Pro.
Tareas frecuentes priorizan optimizar cache, recuperacion y enrutamiento de modelos.

Ruta recomendada de implantacion

Una empresa puede avanzar en este orden:

Elegir primero 2-3 escenarios de alto valor, sin desplegar en toda la empresa.
Usar GPU de consumo o computo a pequena escala para un PoC.
Ejecutar primero Flash, modelos destilados o modelos cuantizados, conectando RAG y permisos.
Introducir Pro para comparar en tareas complejas.
Registrar volumen real de llamadas, latencia, tasa de fallos y tiempo humano ahorrado.
Despues decidir si comprar clusters de chips nacionales o GPU de servidor.
Antes de produccion, completar gateway, auditoria, monitorizacion, limitacion de tasa y rollback.

Esta ruta es mas estable que comprar un gran cluster desde el principio. El mayor riesgo para una empresa no es que el modelo no sea lo bastante fuerte, sino gastar mucho dinero y descubrir despues que el flujo de negocio no puede absorber esa capacidad.

Resumen

DeepSeek V4 abre mas imaginacion para el despliegue privado local en empresas, pero no es simplemente un “ChatGPT local”. La dificultad real esta en la ingenieria: hardware, frameworks, enrutamiento de modelos, permisos, RAG, auditoria, monitorizacion y control de costes deben considerarse juntos.

La ruta de chips nacionales encaja mejor con empresas de alto cumplimiento y planes de nube privada a largo plazo. Los clusters de GPU de consumo encajan mejor con pilotos y validacion rapida en equipos pequenos y medianos. Pro sirve para razonamiento complejo y Agent; Flash o modelos pequenos son mejores para muchas tareas comunes.

Si solo recuerdas una frase: el despliegue privado de DeepSeek V4 no debe empezar por comprar hardware, sino por escenarios de negocio, limites de datos y volumen de llamadas. Primero haz funcionar el escenario; despues decide si usar un modelo grande, que tamano debe tener y sobre que computo desplegarlo.

Referencias

free-claude-code: conectar Claude Code a OpenRouter, DeepSeek y modelos locales mediante un proxy

Fri, 01 May 2026 03:41:49 +0800

free-claude-code es un Anthropic-compatible proxy para usar con Claude Code.

La idea no es crackear Claude Code ni ofrecer un servicio Claude oficial gratuito, sino iniciar localmente un proxy compatible con la forma de la API de Anthropic y reenviar las solicitudes de Claude Code a otros backends de modelos. El README menciona backends como NVIDIA NIM, OpenRouter, DeepSeek, LM Studio, llama.cpp y Ollama.

En pocas palabras, resuelve este problema: te gusta la experiencia de Claude Code en la terminal, pero quieres conectar las peticiones del modelo a otro provider o a un modelo local.

Qué problema resuelve

La experiencia interactiva de Claude Code es muy adecuada para tareas de desarrollo.

Puede leer código en la terminal, modificar archivos, ejecutar comandos y avanzar según el contexto del proyecto. El problema es que muchos usuarios no necesariamente quieren usar siempre el mismo backend de modelo:

Quieren probar distintos modelos en OpenRouter
Quieren usar modelos como DeepSeek para reducir costes
Quieren conectar las peticiones a Ollama local
Quieren ejecutar modelos locales con LM Studio o llama.cpp
Quieren unificar en el entorno de desarrollo una entrada de proxy
Quieren comparar el rendimiento de distintos modelos dentro del flujo de Claude Code

El posicionamiento de free-claude-code es añadir una capa de proxy compatible entre Claude Code y estos servicios de modelos.

Así, Claude Code sigue enviando solicitudes con estilo Anthropic, y el proxy se encarga de adaptarlas a distintos backends.

Funcionamiento

Puede entenderse como tres capas:

El frontend es Claude Code
En medio está el proxy free-claude-code
El backend es OpenRouter, DeepSeek, un modelo local u otro servicio de modelo

Claude Code cree que está accediendo a una API Anthropic-compatible.

El proxy recibe la solicitud, elige el provider objetivo según la configuración, transforma los campos necesarios y devuelve la respuesta a Claude Code.

La ventaja de esta estructura es que no necesitas modificar Claude Code ni exigir que cada servicio de modelo soporte Claude Code de forma nativa. Mientras el proxy pueda alinear la interfaz, puede conectar más modelos al mismo flujo de trabajo.

Backends soportados

Las direcciones listadas en el README incluyen:

NVIDIA NIM
OpenRouter
DeepSeek
LM Studio
llama.cpp
Ollama

Estos backends representan varias formas de uso.

OpenRouter se parece más a una entrada agregadora de modelos, útil para probar distintos modelos comerciales y open source.

DeepSeek conviene a quienes se preocupan por capacidad en chino, capacidad de código y coste.

LM Studio, llama.cpp y Ollama se inclinan hacia la ruta de modelos locales. Sirven para ejecutar modelos en tu propia máquina o en un entorno de intranet, reducir dependencia de APIs externas y facilitar experimentos offline.

NVIDIA NIM está más orientado a inferencia empresarial y despliegue con GPU.

Por qué un Anthropic-compatible proxy

Claude Code está diseñado alrededor de la interfaz y los hábitos de modelo de Anthropic.

Si quieres conectarlo a otros modelos, el problema más directo es que las interfaces no coinciden:

Campos de solicitud distintos
Nombres de modelo distintos
Formatos de streaming distintos
Expresión de tool use distinta
Formatos de error distintos
Límites de tokens y contexto distintos

El valor de la capa proxy está ahí.

Mantiene la interfaz vista por Claude Code con una forma cercana a Anthropic y adapta el backend. Para el usuario, después de configurar el proxy, puede probar distintos modelos dentro del mismo flujo de Claude Code.

Escenarios adecuados

free-claude-code es adecuado para:

Querer usar el flujo de terminal de Claude Code
Probar modelos no Anthropic dentro de Claude Code
Reducir costes de llamadas de modelo
Conectar Claude Code a OpenRouter
Integrar DeepSeek u otros servicios de modelo compatibles
Usar Ollama, LM Studio o llama.cpp para ejecutar modelos locales
Configurar para un equipo una entrada unificada de proxy de modelos

Si solo usas Claude Code oficial normalmente y no tienes necesidades especiales de provider, coste o despliegue local, quizá no necesites este tipo de proxy.

Pero si comparas modelos con frecuencia o quieres que Claude Code acceda a modelos locales y de terceros, este tipo de herramienta es útil.

Diferencia frente a usar directamente OpenRouter u Ollama

Usar directamente OpenRouter, Ollama o LM Studio normalmente significa conversar con el modelo o llamarlo mediante API.

El punto central de free-claude-code no es sustituir esos servicios, sino conectarlos al flujo de desarrollo de Claude Code.

La diferencia está en:

Sigues usando la experiencia de terminal de Claude Code
La IA puede realizar tareas alrededor del repositorio de código
El backend de modelo puede cambiarse por otro provider
Los modelos locales también tienen oportunidad de entrar en el flujo de Claude Code
La configuración se concentra en la capa proxy, no se cambia por separado en cada herramienta

Por eso se parece más a un puente que a un nuevo cliente de chat.

Precauciones con modelos locales

Conectar Claude Code a modelos locales es atractivo, pero también tiene límites prácticos.

Primero, diferencia de capacidad del modelo.

Las tareas de Claude Code no son solo chat; incluyen entender código, planificar cambios, editar archivos y procesar salidas de comandos. Un modelo local pequeño no necesariamente puede completar estas tareas de forma estable.

Segundo, ventana de contexto.

Las tareas de código consumen mucho contexto. Si la ventana del modelo es demasiado pequeña, puede no leer archivos completos, perder restricciones o olvidar contexto durante varias rondas.

Tercero, compatibilidad con tool use.

El flujo de Claude Code depende de llamadas a herramientas y comportamiento estructurado. Aunque un backend pueda chatear, no necesariamente sigue bien protocolos de tool calling.

Cuarto, velocidad y hardware.

La velocidad del modelo local depende de la máquina, el método de cuantización y el tamaño del modelo. Si una tarea de código responde demasiado lento, la experiencia se degrada de forma notable.

Por eso, los modelos locales son más adecuados para experimentos, tareas de bajo riesgo y escenarios concretos. Para tareas de código realmente complejas, todavía hay que elegir con cuidado según la capacidad del modelo.

Límites de uso

Este tipo de proyecto puede malinterpretarse fácilmente por el título, así que conviene aclarar los límites.

Primero, no es cuota gratuita oficial de Claude Code.

Solo reenvía las solicitudes de Claude Code a otros backends de modelos. Al usar OpenRouter, DeepSeek, NVIDIA NIM u otras APIs, sigues teniendo que cumplir precios, cuotas y condiciones de uso de esos servicios.

Segundo, no es una herramienta para saltarse autorización.

Al usar cualquier proxy, hay que cumplir las licencias y términos de Claude Code, del proveedor de modelo y del propio proyecto. No debería entenderse como una forma de evitar restricciones oficiales.

Tercero, el proxy procesará el contenido de tus solicitudes.

Código, salida de comandos y contexto del proyecto pueden pasar por el proxy y por el servicio backend. Al desplegarlo, hay que considerar logs, claves, red y límites de privacidad. Para código de empresa o proyectos sensibles, es mejor usar un entorno controlado.

Cuarto, el rendimiento de distintos modelos puede variar mucho.

La misma operación de Claude Code puede comportarse de forma completamente distinta al cambiar de modelo. No asumas que todos los modelos pueden sustituir a Claude.

Relación con proxies como LiteLLM

Desde el punto de vista de diseño, free-claude-code pertenece a la categoría de “proxies de interfaz compatible”.

El objetivo común de estas herramientas es reducir el acoplamiento entre la aplicación superior y los servicios de modelos inferiores. La aplicación superior solo se enfrenta a una interfaz relativamente unificada, y los providers de abajo pueden cambiarse por configuración.

Cada proyecto tiene un foco distinto. Algunos se orientan a gateway de modelos general, otros a OpenAI-compatible API, y otros se adaptan específicamente a herramientas como Claude Code.

Lo interesante de free-claude-code es que coloca el escenario objetivo directamente en Claude Code, no en un proxy de chat genérico.

Usuarios adecuados

Es más adecuado para usuarios con cierta capacidad de configuración:

Conocen Claude Code
Saben configurar API key y provider de modelos
Entienden cómo arrancar un proxy y variables de entorno
Pueden diagnosticar problemas de red, puertos, nombres de modelo y streaming
Quieren comparar el rendimiento de distintos modelos en tareas de código

Si solo quieres algo listo para usar, la configuración oficial suele ser más tranquila.

Si estás dispuesto a montar proxy, cambiar modelos, ajustar parámetros y quieres llevar Claude Code a más entornos de modelo, este proyecto merece estudio.

Referencia

Alishahryar1/free-claude-code

Una última frase

El valor de free-claude-code no está en la palabra “free”, sino en construir un puente entre Claude Code y más backends de modelos.

Cuando quieres conservar la experiencia de desarrollo de Claude Code y al mismo tiempo probar OpenRouter, DeepSeek, modelos locales o servicios de inferencia empresariales, este tipo de Anthropic-compatible proxy tiene sentido.

DeepSeek V4 Pro vs GPT-5.5: después de probar la interfaz, la escritura y la codificación, la brecha parece mayor de lo esperado

Sat, 25 Apr 2026 11:12:00 +0800

Las comparaciones entre DeepSeek V4 Pro y GPT-5.5 están recibiendo más atención últimamente. La razón ya no es si alguno de los modelos es utilizable. La verdadera pregunta es: cuando el trabajo recae en el desarrollo, la redacción y la codificación del frontend, ¿cuál es mejor para ser su herramienta principal?

Cuando la gente compara modelos como este, a menudo empiezan preguntando cuál es más fuerte.
Pero la pregunta más útil suele ser diferente: en una tarea real, ¿cuál es más estable, más barata para comunicarse y con mayor probabilidad de producir algo que pueda seguir construyendo de inmediato?

Si simplificamos primero la conclusión, queda más o menos así:

Cuando desea un resultado más equilibrado y una experiencia productiva más completa, mucha gente todavía mira primero GPT-5.5
Cuando necesita una iteración de alta frecuencia en chino, se preocupa más por el costo y desea ciclos de respuesta rápidos, “DeepSeek V4 Pro” se convierte en un candidato serio.
Lo que realmente determina la experiencia a menudo no es el nombre del modelo en sí, sino el tipo de tarea, el enfoque de las indicaciones y si es necesario seguir revisándolo después.

Analicemos esto en los tres escenarios de comparación más comunes.

1. Tareas frontend: la verdadera pregunta no es si puede crear una página, sino si puede seguir mejorándola

El trabajo frontend parece ideal para comparaciones de modelos porque el resultado es fácil de ver.
¿Se puede ejecutar la página? ¿Se ve bien? ¿Está limpia la estructura? Puedes juzgar todo eso rápidamente.

Pero la verdadera diferencia no suele aparecer en si el primer borrador funciona. Aparece en preguntas como estas:

¿Está la estructura lo suficientemente clara?
¿La división del componente es natural?
¿Cambiar una pieza accidentalmente rompe otra?
¿Puede seguir la misma lógica de implementación en múltiples rondas de instrucciones?

Es también por eso que muchas demostraciones de frontend que parecen impresionantes en la primera ronda no necesariamente se mantienen a la vanguardia en los flujos de trabajo reales.

Si su tarea es algo como:

Generar rápidamente un prototipo de página ejecutable
Redactar una idea de página de destino.
Complete los estilos, botones, tarjetas, formularios y otros elementos básicos requeridos

entonces ambos modelos a menudo te acercarán bastante, y la diferencia está más en el estilo de salida.

Pero si la tarea se convierte en:

Revisar repetidamente la interfaz de usuario durante varias rondas.
Leer el código existente y continuar desde allí.
Equilibrar la estructura de los componentes, la coherencia del estilo y la mantenibilidad.
Convertir gradualmente una página estática en código de proyecto real.

entonces lo que debes observar ya no es “quién luce mejor en la primera ronda”, sino “quién tiene menos probabilidades de quedarse dormido en la quinta ronda”.

Entonces, en el trabajo frontend, la comparación clave no es si el modelo puede generar una página. Se trata de si, después de seguir agregando restricciones, aún puede mantener una estructura estable, nombres consistentes y costos de modificación manejables.

2. Tareas de escritura: la verdadera diferencia no es cuánto se escribe, sino qué tan estable se mantiene el estilo y qué tan bien se reescribe.

La escritura es otra área en la que la gente puede juzgar mal los modelos con mucha facilidad.

Una razón importante es que los primeros borradores suelen verse bien desde ambos lados.
La estructura es completa, los párrafos están ahí y el tono es lo suficientemente suave como para que sea fácil pensar que son básicamente similares.

Pero tan pronto como avanzas la tarea un paso más, aparecen las diferencias:

¿Puede comprender con precisión a su público objetivo?
¿Puede cambiar de tono manteniendo el mismo tema?
¿Se pierden puntos clave al reescribir?
¿Se mantiene estable al comprimir, ampliar, retitular o reestructurar?

El mayor problema al escribir no suele ser “no puede escribir”, sino “escribió algo que aún necesita mucho arreglo”.

Entonces, al comparar “DeepSeek V4 Pro” y “GPT-5.5”, el método más útil es no pedirles a cada uno que escriba un artículo. Se trata de ejecutar varias rondas como esta:

Escribe el primer borrador.
Reescríbelo en un tono diferente.
Comprímelo en una versión más corta.
Modifíquelo para convertirlo en algo más adecuado para titulares basados en clics o distribución de búsqueda.

Si un modelo puede mantener intactos los puntos clave, la redacción estable y la estructura limpia durante esas rondas, entonces tiene mucho más valor en un flujo de trabajo de escritura real.

En otras palabras, lo que realmente miden las tareas de escritura no es el “estilo literario”, sino la capacidad de revisión, el seguimiento de instrucciones y el sentimiento de colaboración continua.

3. Tareas de codificación: la brecha real se muestra en la estabilidad de la cadena larga

Las tareas de codificación exponen el nivel real de un modelo más fácilmente que el trabajo frontend, porque no se trata solo de generar resultados. Tienen que conectar con la realidad.

Muy rápidamente, te encuentras con preguntas como:

¿Puede comprender la estructura de un proyecto existente?
¿Puede modificar varios archivos a la vez?
¿Introduce nuevos problemas después de realizar cambios?
¿Puede seguir depurando siguiendo registros y errores?
Después de varias rondas, ¿todavía recuerda lo que ya cambió?

En este tipo de trabajo, lo que más preocupa a los usuarios no suele ser si un único fragmento de código parece elegante. Es: ¿puede este modelo seguir avanzando en la tarea, en lugar de dejarme a mí limpiar el desorden?

Entonces, al comparar DeepSeek V4 Pro y GPT-5.5, lo más significativo a considerar generalmente no son indicaciones de codificación aisladas, sino un proceso más cercano al trabajo real:

Leer un repositorio existente
Encuentra un error
Modificar varios archivos relacionados
Continuar corrigiendo según los mensajes de error.
Resumir claramente el resultado al final.

Una vez que la tarea ingresa a ese tipo de flujo de trabajo continuo, la retención del contexto, los hábitos de ejecución, la calidad de la explicación y la tasa de retrabajo son más importantes que la calidad de la respuesta en un solo turno.

Esta es también la razón por la que muchos usuarios eventualmente no se conforman con “usar un solo modelo para siempre” para codificar. En cambio, cambian su herramienta principal según la etapa de la tarea.

4. Lo que realmente vale la pena comparar no es quién gana, sino qué tareas son más rentables asignar a quién

Si pones “DeepSeek V4 Pro” y “GPT-5.5” uno al lado del otro y solo intentas elegir un campeón general, el resultado suele ser una conclusión vacía.

Esto se debe a que las tareas reales no son un examen estándar:

Algunos son de una sola generación.
Algunas son colaboraciones de múltiples rondas.
Algunos están escritos en chino.
Algunos son cambios de ingeniería.
Algunos priorizan la velocidad
Algunos priorizan la estabilidad
Algunos priorizan el costo

Entonces, el enfoque que se acerca más al uso real suele ser dividir por objetivo de la tarea:

Si desea una experiencia general más completa, una interacción más madura y un resultado general más estable, pruebe primero GPT-5.5
Si desea experimentar con alta frecuencia en chino, iteración rápida y mejor relación calidad-precio, “DeepSeek V4 Pro” merece un lugar importante en su flujo de trabajo.
Si la tarea en sí es de cadena larga, de múltiples rondas y colaborativa, no se detenga en el primer resultado; observe quién se mantiene más estable después de cinco rondas.

En otras palabras, la verdadera pregunta no es “quién es absolutamente más fuerte”, sino ésta:
para el trabajo frontend, la escritura y la codificación, ¿qué modelo parece más la herramienta más práctica para su etapa actual?

5. Cómo realizar una comparación que realmente signifique algo

Si desea probar DeepSeek V4 Pro y GPT-5.5 usted mismo, un método más confiable generalmente no es ejecutar una sola ronda, sino hacer algo como esto:

Dé a ambos modelos el mismo requisito inicial.
Mantenga las mismas restricciones en ambos lados
Continúe haciendo preguntas de seguimiento durante tres a cinco rondas.
Registre la calidad de salida, la frecuencia de deriva y la cantidad de retrabajo
Solo entonces compara velocidad, coste y usabilidad final.

Ese tipo de prueba te acercará mucho más al trabajo real que simplemente preguntar quién luce más impresionante en la primera ronda.

Especialmente en frontend, escritura y codificación, lo que a menudo determina la experiencia real no es la línea de partida, sino quién puede quedarse contigo y ayudarte a terminar el trabajo.

6. Una forma sencilla de recordarlo

Si solo quieres un resumen práctico, puedes recordarlo así:

GPT-5.5: más como un espacio de trabajo predeterminado amplio, productivo y convencional
DeepSeek V4 Pro: más bien un competidor fuerte que vale la pena incorporar a los flujos de trabajo diarios en chino y al trabajo de prueba y error de alta frecuencia
El verdadero punto de comparación: no un resultado llamativo en la primera ronda, sino quién se mantiene más estable y ahorra más esfuerzo después de múltiples rondas de revisión.

Entonces, en este tipo de comparación, lo que realmente importa nunca es simplemente “quién ganó”. Es este:
Para sus tareas de frontend, escritura y codificación, ¿qué modelo facilita el progreso continuo, reduce el retrabajo y le brinda resultados más estables?

Lanzamiento de la vista previa de DeepSeek-V4: contexto de 1M, dos modelos y notas de migración de API

Fri, 24 Apr 2026 22:39:46 +0800

DeepSeek lanzó Lanzamiento preliminar de DeepSeek V4 el 2026-04-24. Según la página de anuncio oficial, la actualización se centra en algunos temas muy claros: “1M context”, una línea de dos modelos con “V4-Pro” y “V4-Flash”, optimización dedicada para escenarios de agentes y migración de modelos del lado API.

Si reducimos el comunicado a una frase, la señal principal es la siguiente: DeepSeek no sólo está intentando crear un modelo más potente. Está impulsando el contexto ultralargo y las capacidades de los agentes hacia algo que esté listo para su implementación práctica.

1. Lo que se lanzó esta vez

Según la página oficial, DeepSeek-V4 Preview incluye principalmente dos líneas de productos:

-DeepSeek-V4-Pro -DeepSeek-V4-Flash

Las descripciones oficiales también son muy directas:

DeepSeek-V4-Pro: 1.6T total / 49B parámetros activos
DeepSeek-V4-Flash: 284B en total / 13B de parámetros activos

El nombre ya deja clara la estrategia. Esta no es una actualización de un solo modelo. DeepSeek está lanzando un modelo de gama alta y un modelo más rentable al mismo tiempo.

“V4-Pro” está posicionado alrededor del techo de rendimiento, y DeepSeek dice que puede competir con los mejores modelos de código cerrado del mundo. V4-Flash, por el contrario, se posiciona en torno a la velocidad, la eficiencia y el menor costo, lo que lo hace más adecuado para cargas de trabajo que se preocupan más por la latencia y el precio de API.

2. `1M contexto` es el título más visible

Una de las líneas más destacadas de la página oficial es: “Bienvenido a la era del contexto rentable de 1 millón de longitud”.

DeepSeek no se limita a decir que el modelo admite un contexto prolongado. Presenta “contexto 1M” como una capacidad predeterminada de esta generación. La página es explícita que:

1M context es ahora el estándar predeterminado en todos los servicios oficiales de DeepSeek
Tanto V4-Pro como V4-Flash admiten contexto 1M

La importancia de esto no es sólo que puedas colocar más tokens. Afecta directamente a tareas como:

Comprender grandes bases de código
Preguntas y respuestas de documentos extensos y síntesis de información.
Flujos de trabajo de agentes de múltiples turnos
Tareas complejas que abarcan múltiples archivos, herramientas y etapas.

Cuando la ventana de contexto es lo suficientemente grande, es menos probable que el modelo pierda el contexto a mitad del camino y vuelva a leer el material repetidamente. Esto es muy importante para la codificación agente y el trabajo de conocimiento complejo.

3. Qué enfatiza principalmente `V4-Pro`

Según el texto de la página oficial, “DeepSeek-V4-Pro” se centra en tres cosas:

Capacidad de codificación agente
conocimiento mundial
Capacidad de razonamiento

La página dice que “V4-Pro” alcanza SOTA de código abierto en puntos de referencia de codificación agente. También afirma ser líder entre los modelos abiertos actuales en el conocimiento mundial, sólo por detrás de “Gemini-3.1-Pro”, y afirma que su rendimiento en matemáticas, “STEM” y codificación supera a los modelos abiertos actuales y rivaliza con los mejores modelos de código cerrado.

En otras palabras, “V4-Pro” no se posiciona como un simple modelo de preguntas y respuestas. Está dirigido mucho más al razonamiento de alta dificultad, la codificación compleja y la ejecución de tareas a largo plazo.

4. `V4-Flash` no es solo una versión reducida

Otro punto destacable es que DeepSeek no presenta V4-Flash como modelo de gama baja. Más bien, subraya que el modelo ya es lo suficientemente sólido para muchas tareas prácticas.

Según el anuncio, V4-Flash:

Tiene una capacidad de razonamiento cercana a “V4-Pro”.
Funciona a la par con V4-Pro en tareas simples de agente
Utiliza menos parámetros, responde más rápido y es más económico para el uso de API

Eso significa que la alineación no es una estructura muy dividida de “un buque insignia, un nivel de entrada”. Está más cerca de:

V4-Pro: optimización para un mayor rendimiento y un techo más resistente
V4-Flash: optimización para una menor latencia y una mejor rentabilidad

Para los desarrolladores, esta suele ser una combinación más práctica, porque muchas tareas de producción no necesitan el modelo más sólido en teoría. Necesitan algo lo suficientemente fuerte, lo suficientemente rápido y lo suficientemente asequible.

5. El lanzamiento pone un claro énfasis en la optimización de los agentes.

Otra señal fuerte de la página de anuncios es que DeepSeek está impulsando activamente “V4” hacia casos de uso de agentes.

La página dice que “DeepSeek-V4” se ha integrado perfectamente con varios agentes líderes de IA, incluidos:

Código Claude
OpenClaw
Código Abierto

DeepSeek también dice que “V4” ya se está utilizando en sus flujos de trabajo de codificación agentes internos.

Eso significa que el objetivo ya no se limita al chat o a la finalización ordinaria. El modelo se está posicionando para flujos de trabajo más largos: leer código, comprender la estructura, llamar a herramientas, generar resultados y conectar todo el proceso.

Si ha estado prestando atención a los agentes de codificación recientemente, vale la pena señalarlo. Los proveedores de modelos ya no compiten sólo en base a puntos de referencia. También compiten sobre si el modelo realmente puede integrarse en flujos de trabajo reales.

6. La innovación estructural está al servicio de la eficiencia en el contexto a largo plazo.

En el aspecto técnico, la página resume el trabajo estructural de este lanzamiento como:

compresión por token
DSA (Atención escasa de DeepSeek)

La dirección es clara: hacer que el contexto largo sea más barato y más eficiente, al mismo tiempo que se reducen los costos de computación y memoria tanto como sea posible.

La página del anuncio no entra en detalles técnicos completos, pero al menos sugiere que DeepSeek no depende únicamente del escalamiento por fuerza bruta para admitir ventanas más largas. También está realizando optimizaciones a nivel de arquitectura específicamente para la eficiencia en contextos prolongados.

Para los usuarios reales, eso a menudo es más importante que simplemente ver un número de contexto mayor, porque la usabilidad real depende de algo más que si “1M” está técnicamente disponible. También depende de:

Si la velocidad sigue siendo aceptable
Si el costo sigue siendo aceptable
Si las tareas de contexto largo permanecen estables en la práctica

7. La API ya está disponible, pero la migración del modelo es importante

La página oficial indica claramente que la API está disponible hoy.

La ruta de migración también es relativamente sencilla:

Mantener la misma base_url
Cambie el nombre del modelo a deepseek-v4-pro o deepseek-v4-flash

La página también dice que ambos modelos admiten:

Contexto 1M
Modos duales “Pensamiento / No pensamiento”
Compleciones de Chat OpenAI
API antrópicas

Eso significa que si ya utiliza la API de DeepSeek, la ruta de actualización no es especialmente difícil. El trabajo principal es actualizar los nombres de los modelos y validar el comportamiento.

8. El calendario de jubilación para modelos antiguos es explícito.

Para los desarrolladores, uno de los detalles más importantes de la página es en realidad el aviso de retirada de modelos más antiguos.

DeepSeek dice explícitamente:

chat de búsqueda profunda
razonador de búsqueda profunda

quedará completamente retirado y será inaccesible después del 24 de julio de 2026 a las 15:59 UTC. La página también señala que estos dos modelos están siendo encaminados actualmente a los modos de pensamiento y no pensamiento de “deepseek-v4-flash”.

Eso significa que si su proyecto todavía hace referencia directa a deepseek-chat o deepseek-reasoner, ahora es el momento de planificar la migración en lugar de esperar hasta que se acerque la fecha de cierre formal.

9. Por qué vale la pena leer este comunicado

Si comprimimos la actualización en algunas conclusiones principales, se ven así:

DeepSeek está convirtiendo el “contexto 1M” de una característica premium a un estándar predeterminado
La estrategia de dos modelos es más clara: uno apunta al techo de rendimiento, el otro apunta a la velocidad y la rentabilidad.
La capacidad del agente se ha trasladado a un papel muy central.
La ruta de actualización de API es relativamente directa, pero el cronograma de retiro del modelo antiguo necesita atención pronto.

Para los usuarios generales, el cambio más visible puede ser que los documentos largos, los contextos de código largos y los flujos de trabajo largos sean más fáciles de encajar en una sola sesión.
Para los desarrolladores, el punto más importante es que si ya están creando agentes, asistentes de codificación, flujos de trabajo de conocimiento o canales de automatización complejos, esta generación está muy claramente diseñada para esos escenarios.

Esta no es sólo una actualización rutinaria del modelo de DeepSeek. Se lee más como una declaración más clara de la próxima dirección de su producto: contexto ultralargo, optimización de agentes y preparación de API más práctica.

Enlaces relacionados

Página oficial de noticias de DeepSeek: https://api-docs.deepseek.com/news/news260424
Informe técnico: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
Pesos abiertos: https://huggingface.co/collections/deepseek-ai/deepseek-v4

DeepSeek on KnightLi Blog

Ejecutar DeepSeek 4 en local: el experimento ds4 de Antirez en Apple Silicon Mac

Qué es ds4

Por qué merece atención

Para quién es

Cómo usarlo

Riesgos actuales

Diferencias frente a herramientas de inferencia generales

Resumen

Referencias

DeepSeek-TUI: ejecuta un agente de programación DeepSeek en la terminal

Para quién es

Instalación

Configurar la API Key

Auto mode

Modos

Herramientas

Comandos comunes

Zed y ACP

Configuración y proveedores

Resumen

Referencias

Despliegue privado local de DeepSeek V4: elegir entre chips nacionales y clusters de GPU de consumo

Aclarar primero el objetivo del despliegue

No perseguir Pro completo desde el primer dia

Ruta de chips nacionales: adecuada para nube privada empresarial

Clusters de GPU de consumo: adecuados para pilotos y equipos pequenos

Posible arquitectura de despliegue

Criterios para elegir hardware

Etapa de validacion

Etapa piloto

Etapa de produccion

Como elegir framework de inferencia

La seguridad de datos debe hacerse fuera del modelo

El coste no son solo las GPU

Ruta recomendada de implantacion

Resumen

Referencias

free-claude-code: conectar Claude Code a OpenRouter, DeepSeek y modelos locales mediante un proxy

Qué problema resuelve

Funcionamiento

Backends soportados

Por qué un Anthropic-compatible proxy

Escenarios adecuados

Diferencia frente a usar directamente OpenRouter u Ollama

Precauciones con modelos locales

Límites de uso

Relación con proxies como LiteLLM

Usuarios adecuados

Referencia

Una última frase

DeepSeek V4 Pro vs GPT-5.5: después de probar la interfaz, la escritura y la codificación, la brecha parece mayor de lo esperado

1. Tareas frontend: la verdadera pregunta no es si puede crear una página, sino si puede seguir mejorándola

2. Tareas de escritura: la verdadera diferencia no es cuánto se escribe, sino qué tan estable se mantiene el estilo y qué tan bien se reescribe.

3. Tareas de codificación: la brecha real se muestra en la estabilidad de la cadena larga

4. Lo que realmente vale la pena comparar no es quién gana, sino qué tareas son más rentables asignar a quién

5. Cómo realizar una comparación que realmente signifique algo

6. Una forma sencilla de recordarlo

Lanzamiento de la vista previa de DeepSeek-V4: contexto de 1M, dos modelos y notas de migración de API

1. Lo que se lanzó esta vez

2. 1M contexto es el título más visible

3. Qué enfatiza principalmente V4-Pro

4. V4-Flash no es solo una versión reducida

5. El lanzamiento pone un claro énfasis en la optimización de los agentes.

6. La innovación estructural está al servicio de la eficiencia en el contexto a largo plazo.

7. La API ya está disponible, pero la migración del modelo es importante

8. El calendario de jubilación para modelos antiguos es explícito.

9. Por qué vale la pena leer este comunicado

Enlaces relacionados

2. `1M contexto` es el título más visible

3. Qué enfatiza principalmente `V4-Pro`

4. `V4-Flash` no es solo una versión reducida