Cómo las rebajas de DeepSeek V4 reescriben el modelo de costes de los AI Agents

DeepSeek V4 no llegó con un lanzamiento especialmente ruidoso. No hubo gran evento ni una historia de benchmarks que aplastara al instante a todos los competidores. Pero unos días después apareció la parte que realmente afecta a la industria: rebajas repetidas de precio.

El punto de este cambio no es que “el modelo se volvió un poco más fuerte”, sino que “el coste de uso fue empujado a otro nivel”. Cuando los precios por token bajan lo suficiente para que una tarea ordinaria de Agent termine por unos pocos centavos o un par de yuanes, la lógica de negocio detrás de muchos Coding Plans y Token Plans necesita reconsiderarse.

El día de lanzamiento no fue explosivo

La primera ola de comentarios sobre DeepSeek V4 no fue especialmente intensa. Mucha gente esperaba un impacto como el de R1: liderazgo general en benchmarks, validación del cómputo doméstico y avances simultáneos en multimodalidad y capacidades de Agent. Tras el lanzamiento real, sin embargo, se pareció más a una actualización sólida.

V4 Pro es sin duda un modelo fuerte, especialmente en programación, matemáticas, contexto largo y agentic coding. Pero no es el tipo de producto que hace que todos los modelos pares parezcan obsoletos de inmediato. Por eso, el día de lanzamiento la discusión se sintió algo incómoda: la gente quería elogiarlo, pero era difícil encontrar un ángulo lo bastante explosivo.

El verdadero punto de inflexión no fue el lanzamiento, sino los ajustes de precio que llegaron después.

Las rebajas sucesivas son la clave

Después de publicarse DeepSeek V4, los precios empezaron a moverse hacia abajo. Según la página oficial de precios de DeepSeek y la información resumida en el artículo fuente, los precios aproximados de aquel momento eran:

DeepSeek V4 Flash: alrededor de 1 yuan por 1 millón de tokens de entrada; alrededor de 0,02 yuan por 1 millón de tokens tras un cache hit;
DeepSeek V4 Pro: alrededor de 3 yuanes por 1 millón de tokens de entrada; alrededor de 0,025 yuan por 1 millón de tokens tras un cache hit;
el precio de entrada con cache hit en toda la familia de modelos cayó a una décima parte del precio de lanzamiento;
V4 Pro estuvo en un periodo de descuento del 75%, extendido hasta el 31 de mayo de 2026 a las 23:59.

Los precios de API en dólares estadounidenses muestran la diferencia con más claridad:

Modelo	Entrada cacheada	Entrada no cacheada	Salida	Contexto
`deepseek-v4-flash`	$0.0028 / 1M tokens	$0.14 / 1M tokens	$0.28 / 1M tokens	1M
`deepseek-v4-pro` precio promocional	$0.003625 / 1M tokens	$0.435 / 1M tokens	$0.87 / 1M tokens	1M
`deepseek-v4-pro` precio regular	$0.0145 / 1M tokens	$1.74 / 1M tokens	$3.48 / 1M tokens	1M

Aquí importan dos detalles.

Primero, los $0.435 / $0.87 de V4 Pro son precio promocional, no el precio regular a largo plazo. En las notas oficiales de DeepSeek, este descuento del 75% fue extendido hasta el 31 de mayo de 2026 a las 15:59 UTC.

Segundo, el precio con cache hit es la variable clave del modelo de costes de Agent. La entrada cacheada de Flash baja hasta $0.0028 / 1M tokens, mientras el precio promocional cacheado de Pro es $0.003625 / 1M tokens. Eso significa que contexto de proyecto repetido, definiciones de herramientas, system prompts y resúmenes históricos ya no necesitan cobrarse al precio completo de entrada.

Lo más importante de esta política de precios es que vuelve “insensible” el coste en tokens de muchas tareas. Antes, los desarrolladores temían que una tarea de Agent consumiera mucho contexto, leyera y escribiera código repetidamente y llamara herramientas con frecuencia. Ahora, mientras la tasa de cache hit sea lo bastante alta, el coste puede empujarse muy abajo.

Comparación de precios con GPT y Claude

Los precios de DeepSeek por sí solos no transmiten toda la brecha. El contraste se vuelve mucho más claro al ponerlos junto a modelos cerrados comunes del mismo periodo.

Modelo	Entrada	Entrada cacheada	Salida	Mejor para
`deepseek-v4-flash`	$0.14 / M	$0.0028 / M	$0.28 / M	Agents de alta frecuencia, programación rutinaria, tareas por lotes
`deepseek-v4-pro` precio promocional	$0.435 / M	$0.003625 / M	$0.87 / M	Programación compleja, planificación, verificación de hechos
`deepseek-v4-pro` precio regular	$1.74 / M	$0.0145 / M	$3.48 / M	Línea base de coste Pro tras la promoción
GPT-5.5	$5 / M	$0.50 / M	$30 / M	Tareas complejas de alta calidad, razonamiento general
GPT-5.4	$2.50 / M	$0.25 / M	$15 / M	Opción intermedia para programación y trabajo profesional
GPT-5.4 mini	$0.75 / M	$0.075 / M	$4.50 / M	Modelo general y de subtareas de menor coste
Claude Opus 4.7	$5 / M	$0.50 / M	$25 / M	Escritura de alta calidad, razonamiento complejo, tareas largas
Claude Sonnet 4.6	$3 / M	$0.30 / M	$15 / M	Programación, Agents, trabajo general
Claude Haiku 4.5	$1 / M	$0.10 / M	$5 / M	Tareas ligeras, resumen, clasificación

El número más llamativo de esta tabla es el precio de salida. Los Agents no solo leen contexto; también generan planes, parches, explicaciones, logs y siguientes acciones. Si hay mucha salida, los $0.87 / M promocionales de DeepSeek V4 Pro son drásticamente más baratos que los $30 / M de GPT-5.5 o los $15 / M de Claude Sonnet 4.6.

Incluso al precio regular de salida de V4 Pro, $3.48 / M, sigue claramente por debajo de GPT-5.4, GPT-5.5 y Claude Sonnet / Opus. Si la tarea puede manejarse con Flash, el precio de salida baja aún más hasta $0.28 / M.

La brecha de entrada cacheada es todavía más extrema. DeepSeek V4 Flash cuesta $0.0028 / M en entrada cacheada, mientras GPT-5.5 y Claude Opus 4.7 cuestan ambos $0.50 / M. No están en el mismo orden de magnitud. Para Agents que leen repetidamente el mismo repositorio de código, esta brecha importa más que en un chat normal.

Por qué las tareas de Agent se ven especialmente afectadas

Los AI Agents son distintos del chat ordinario. El chat normal suele ser un flujo de pregunta y respuesta con contexto de entrada relativamente limitado. Las tareas de Agent leen archivos de proyecto repetidamente, generan planes, llaman herramientas, inspeccionan resultados y vuelven a modificar código.

Estas tareas tienen dos rasgos:

gran consumo de tokens;
mucho contexto repetido.

El segundo punto es crucial. En un proyecto de código, el modelo lee una y otra vez los mismos archivos, estructura de directorios, logs de error y resultados de modificación. Si la plataforma admite cache hits, el coste de entrada repetida cae de forma pronunciada.

El artículo fuente mencionaba una experiencia real: conectar DeepSeek V4 Pro y Flash a una herramienta parecida a Claude Code, pedirle que descargara un repositorio de prompts y lo convirtiera en un sitio local de búsqueda. La tarea se completó con un coste total de poco más de 0,8 yuanes, y Pro alcanzó una tasa de cache hit del 98,7%.

Este ejemplo ilustra un punto práctico: cuanto más se parece una tarea de Agent a “trabajo repetido alrededor del mismo proyecto”, más valiosos se vuelven los cache hits. Si generar un sitio, arreglar un bug o cambiar un frontend cuesta solo unos centavos o unos pocos yuanes, los planes de suscripción pierden atractivo.

Podemos estimar la brecha con una tarea simplificada. Supongamos que una tarea de coding agent incluye:

500.000 tokens de entrada, de los cuales 80% pueden cachearse;
50.000 tokens de salida;
sin llamadas de herramientas, costes de búsqueda ni markup de plataforma, solo coste de tokens del modelo.

Los costes aproximados son:

Modelo	Coste estimado
DeepSeek V4 Flash	alrededor de $0.03
DeepSeek V4 Pro precio promocional	alrededor de $0.09
DeepSeek V4 Pro precio regular	alrededor de $0.36
GPT-5.4 mini	alrededor de $0.30
GPT-5.4	alrededor de $1.01
GPT-5.5	alrededor de $1.75
Claude Sonnet 4.6	alrededor de $1.11
Claude Opus 4.7	alrededor de $1.65

Esta estimación no significa que DeepSeek sea mejor para todas las tareas. Calidad del modelo, estabilidad de tool calls, capacidad de recuperación en contexto largo, estilo de código y fiabilidad factual necesitan evaluación separada. Pero desde el coste, DeepSeek V4 empuja muy abajo el coste marginal de “dejar correr al Agent unas rondas más”. Eso animará a diseñar flujos más largos, autochecks más frecuentes y más soluciones candidatas sin preocuparse por la factura de tokens cada vez.

La diferencia entre Coding Plans y Token Plans

Muchos productos de IA ofrecen ahora dos tipos de planes: Coding Plans y Token Plans.

La diferencia aproximada es:

los Coding Plans suelen estar orientados principalmente a programación;
los Token Plans suelen cubrir más capacidades, como STT, TTS, generación de imágenes, búsqueda, embeddings y RAG;
STT significa speech to text;
TTS significa text to speech;
los Coding Plans a menudo restringen al usuario a escenarios de programación, mientras otras capacidades requieren compras separadas.

Desde el negocio, un Coding Plan se parece más a un buffet. Los usuarios pagan una tarifa fija por adelantado, mientras el proveedor apuesta a que la mayoría no agotará la cuota. Algunos usuarios consumen más, otros menos, y la plataforma todavía puede ganar dinero en promedio.

Pero si los precios pay-as-you-go por token bajan lo suficiente, los usuarios empiezan a calcular: ¿por qué tengo que comprar un plan? Si el coste mensual real es solo unos pocos yuanes o una decena, un plan de 40 o 200 yuanes puede dejar de valer la pena.

Por qué las rebajas desafían el modelo de suscripción

Los planes de suscripción dependen de una premisa: los usuarios sienten que cada uso individual es caro, o no quieren calcular el coste de cada llamada. Cuando los tokens son caros, un plan da tranquilidad. Cuando los tokens son casi insignificantes, pay-as-you-go se vuelve más natural.

La rebaja de DeepSeek V4 revela de hecho el coste subyacente:

las tareas de Agent pueden ser muy baratas;
el contexto largo no es necesariamente demasiado caro de usar;
los cache hits pueden reducir mucho el coste;
los desarrolladores comunes no necesitan necesariamente una suscripción fija;
el punto de entrada del modelo puede desplazarse de una “plataforma de planes” a una “API de bajo coste”.

Esto incomodará a plataformas construidas alrededor de Coding Plans. Si los usuarios ven que las llamadas pay-as-you-go son más baratas y libres, tienen menos razones para quedar atados a la suscripción de una plataforma.

Cómo elegir entre Flash y Pro

Una forma práctica de usar DeepSeek V4 es dividir el trabajo entre Flash y Pro.

Flash es adecuado para tareas frecuentes, ligeras y repetibles:

corregir bugs;
escribir código frontend;
escribir scripts;
comprensión rutinaria de código;
procesar información ordinaria en contexto largo;
ejecutar gran cantidad de subtareas.

Flash es barato, rápido y también admite contexto muy largo. Para agents de programación cotidianos, muchas tareas no necesitan Pro desde el inicio.

Pro es mejor para juicio complejo y trabajo de respaldo:

planificación multi-ronda;
flujos complejos de Agent;
múltiples llamadas de función;
verificación de hechos;
investigación financiera;
producción de contenido que requiere conocimiento y juicio más fuertes;
cambios de código de alto riesgo.

Una configuración razonable es: Flash maneja volumen, Pro maneja fallback. Empieza tareas ordinarias con Flash y cambia a Pro para planificación de largo alcance, juicio complejo, verificación de hechos o colaboración multi-herramienta. Así se controla el coste sin renunciar a calidad de modelo.

Por qué DeepSeek puede poner estos precios

DeepSeek tiene una estructura de negocio distinta a muchas grandes plataformas. No tiene e-commerce, redes sociales, video corto, cloud computing, teléfonos, coches, suites de oficina, sistemas operativos, navegadores ni un gran ecosistema SaaS empresarial.

Eso significa que no necesita encerrar a los usuarios en una plataforma completa. Puede simplemente vender capacidad de modelo de texto: usa modelos de texto baratos aquí y llama cualquier otra capacidad en otro lugar.

Las grandes plataformas suelen pensar distinto. Si compras su Coding Plan o Token Plan, entras en su ecosistema de cloud, búsqueda, generación de imágenes, voz, base de datos y herramientas de desarrollo. El plan no solo vende el modelo; compite por el punto de entrada del usuario.

El enfoque de DeepSeek es más directo: bajar el precio de los modelos de texto e intentar convertirse en el punto de entrada por defecto para Agents. Una vez ocupado ese punto de entrada, muchos desarrolladores y toolchains se adaptarán naturalmente alrededor.

Modelos abiertos y el punto de entrada por defecto

Si DeepSeek V4 mantiene una ruta de modelo abierto, proveedores cloud y plataformas de terceros pueden desplegarlo por su cuenta y ofrecer servicios. Para DeepSeek, eso es distribución y posible desviación a la vez.

Aquí es donde importa una API oficial de bajo precio. Si el precio oficial ya es lo bastante bajo, otras plataformas tendrán difícil ofrecer una ventaja clara aunque puedan desplegar el modelo. Los usuarios tenderán a usar directamente el punto de entrada por defecto, barato y estable.

Esto es especialmente cierto para herramientas de Agent. Las tareas de Agent dependen de contexto largo, caching, llamadas de herramientas y throughput estable. Una vez que un modelo es lo bastante barato en estos escenarios, tiene opción de convertirse en la opción por defecto.

Los Coding Plans aún no son inútiles

Esto no significa que los Coding Plans desaparezcan inmediatamente. Todavía encajan con algunos usuarios.

Si algunos usuarios son realmente intensivos y agotan su cuota todos los días, una suscripción fija puede seguir siendo económica. Igual que un buffet: si nadie pudiera comer suficiente para amortizarlo, nadie lo compraría.

El problema es que la mayoría de usuarios no son tan extremadamente frecuentes. Usuarios de baja frecuencia, desarrolladores ligeros y personas que ocasionalmente escriben scripts o modifican proyectos encajan mejor con pay-as-you-go. Después de que DeepSeek reduzca los costes por uso, el atractivo de los planes se debilita.

El futuro probablemente será una elección por capas:

usuarios intensivos de alta frecuencia seguirán comprando Coding Plans;
usuarios ordinarios se moverán a APIs de bajo coste;
las herramientas de Agent elegirán automáticamente Flash / Pro según la tarea;
los planes de plataforma tendrán que ofrecer más valor no relacionado con el modelo, como workflows, integración IDE, despliegue, gestión de equipos y auditoría de seguridad.

Resumen

DeepSeek V4 no creó su mayor impacto mediante benchmarks. Lo que realmente cambió las expectativas de la industria fue la reducción de precios posterior.

Cuando los tokens de entrada y el precio con cache hit bajan mucho, cambia el coste de usar AI Agents. Contexto largo, análisis de proyectos de código y llamadas multi-ronda de herramientas que antes parecían caras pueden convertirse en costes cotidianos de unos centavos o unos pocos yuanes.

Esto desafía directamente la lógica de negocio de Coding Plans y Token Plans. Si los usuarios pueden pagar por uso, combinar libremente modelos y herramientas, y mantener costes lo bastante bajos, quizá no quieran quedar atados a un plan de plataforma específico.

Lo que DeepSeek V4 toca realmente esta vez no es solo el ranking de capacidades del modelo, sino la estructura de costes de los AI Agents y la batalla por el punto de entrada por defecto.

Referencias: