<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>Small Models on KnightLi Blog</title>
        <link>https://www.knightli.com/es/tags/small-models/</link>
        <description>Recent content in Small Models on KnightLi Blog</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>es</language>
        <lastBuildDate>Fri, 15 May 2026 08:59:33 +0800</lastBuildDate><atom:link href="https://www.knightli.com/es/tags/small-models/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>Qué es Token Efficiency: DeepSeek V4, planificación con modelos grandes y ejecución con modelos pequeños</title>
        <link>https://www.knightli.com/es/2026/05/15/token-efficiency-agent-orchestration/</link>
        <pubDate>Fri, 15 May 2026 08:59:33 +0800</pubDate>
        
        <guid>https://www.knightli.com/es/2026/05/15/token-efficiency-agent-orchestration/</guid>
        <description>&lt;p&gt;La próxima métrica importante en AI Coding quizá no sea quién tiene el modelo más fuerte, sino quién completa más trabajo verificable con menos tokens, menor coste y un proceso más estable.&lt;/p&gt;
&lt;p&gt;Ese es el valor de Token Efficiency.&lt;/p&gt;
&lt;p&gt;Muchos lo entienden como modelos baratos, contexto largo o cache hits más económicos. Eso es solo la base. Lo que lo convierte en productividad es la división de trabajo entre modelos, la orquestación de tareas, el presupuesto de contexto y la evaluación.&lt;/p&gt;
&lt;p&gt;Token Efficiency no es un truco para ahorrar dinero. Es un método de ingeniería para convertir tokens en producción.&lt;/p&gt;
&lt;h2 id=&#34;deepseek-v4-separar-planificación-y-ejecución&#34;&gt;DeepSeek V4: separar planificación y ejecución
&lt;/h2&gt;&lt;p&gt;DeepSeek V4 no es solo otro modelo más fuerte. Divide las dos capacidades necesarias para Token Efficiency en &lt;code&gt;V4 Pro&lt;/code&gt; y &lt;code&gt;V4 Flash&lt;/code&gt;: &lt;code&gt;V4 Pro&lt;/code&gt; encaja mejor con planificación, razonamiento, juicio arquitectónico y revisión crítica; &lt;code&gt;V4 Flash&lt;/code&gt; encaja con ejecución frecuente, reescritura en lote, completado de código, organización de información y nodos normales de un agente.&lt;/p&gt;
&lt;p&gt;En AI Coding esto se traduce así:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;V4 Pro&lt;/code&gt;: planner / consultant para requisitos, diseño técnico, bugs complejos, revisión de arquitectura y aceptación final.&lt;/li&gt;
&lt;li&gt;&lt;code&gt;V4 Flash&lt;/code&gt;: executor para escanear archivos, implementar cambios simples, completar tests, ordenar documentación, generar candidatos y repetir tareas.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;La documentación API de DeepSeek indica que ambos soportan &lt;code&gt;1M&lt;/code&gt; de contexto, JSON Output, Tool Calls, Chat Prefix Completion y FIM Completion. La página de precios también separa input con cache hit y señala una bajada fuerte de ese precio.&lt;/p&gt;
&lt;p&gt;La combinación es lo importante: &lt;code&gt;1M&lt;/code&gt; de contexto reduce compresión en tareas agent complejas; el cache hit barato reduce el coste de volver a cargar prompts, docs, código e historial; la separación &lt;code&gt;Flash / Pro&lt;/code&gt; evita usar un modelo flagship para cada paso o depender solo de un modelo pequeño inestable.&lt;/p&gt;
&lt;p&gt;Así, DeepSeek V4 ofrece una estructura de coste realista para el patrón “modelo consultor + modelo ejecutor + harness de orquestación”.&lt;/p&gt;
&lt;h2 id=&#34;no-hacer-que-el-modelo-más-fuerte-lo-haga-todo&#34;&gt;No hacer que el modelo más fuerte lo haga todo
&lt;/h2&gt;&lt;p&gt;Antes era común elegir el modelo más inteligente y dejarle requisitos, código, tests y resumen de punta a punta.&lt;/p&gt;
&lt;p&gt;Es sencillo, pero no siempre eficiente. Muchas tareas no necesitan razonamiento de frontera. Los modelos caros deberían actuar como consultores, arquitectos o planificadores que intervienen en puntos clave.&lt;/p&gt;
&lt;p&gt;Una estructura mejor:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Modelos grandes para descomponer problemas y tomar decisiones clave.&lt;/li&gt;
&lt;li&gt;Modelos pequeños para ejecutar, procesar en lote y repetir cambios.&lt;/li&gt;
&lt;li&gt;Herramientas y harness para proceso, estado, contexto y validación.&lt;/li&gt;
&lt;li&gt;Personas para definir producto, aceptar resultados y decidir tradeoffs.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Así el razonamiento caro no se desperdicia en ejecución mecánica.&lt;/p&gt;
&lt;h2 id=&#34;más-contexto-no-siempre-es-mejor&#34;&gt;Más contexto no siempre es mejor
&lt;/h2&gt;&lt;p&gt;El contexto largo importa en coding agents porque código, documentos, historial, salida de tests y logs consumen ventana. Cuando se llena, aparecen compresión, olvido y errores de juicio.&lt;/p&gt;
&lt;p&gt;Pero contexto largo no significa meterlo todo.&lt;/p&gt;
&lt;p&gt;Token Efficiency exige que cada tarea quepa en una ventana clara y controlada: archivos necesarios, documentos relevantes para la decisión, estado actual, entradas y salidas claras, y resumen estructurado para el siguiente nodo.&lt;/p&gt;
&lt;p&gt;Si el contexto es barato, la tentación es meter ruido. El ruido no hace al modelo más inteligente.&lt;/p&gt;
&lt;h2 id=&#34;el-harness-importa-más-que-un-modelo-aislado&#34;&gt;El harness importa más que un modelo aislado
&lt;/h2&gt;&lt;p&gt;Conectar Claude Code, Codex u otro agent a un modelo barato no basta. Los modelos pequeños se desvían en cadenas largas si no hay control de proceso.&lt;/p&gt;
&lt;p&gt;Un harness decide cómo dividir tareas, correr nodos, escoger modelos, validar resultados, reintentar fallos y pasar contexto.&lt;/p&gt;
&lt;p&gt;Sin esa capa, un modelo pequeño solo es barato. Con esa capa, puede convertirse en palanca.&lt;/p&gt;
&lt;h2 id=&#34;dividir-tareas-con-dag&#34;&gt;Dividir tareas con DAG
&lt;/h2&gt;&lt;p&gt;Una tarea compleja puede convertirse en un DAG. Por ejemplo: aclarar requisitos, diseñar solución, dividir tareas, implementar, completar tests, hacer Code Review, corregir y enviar PR.&lt;/p&gt;
&lt;p&gt;Cada nodo puede ser un agente independiente con rol, prompt, permisos de herramientas y formato de salida. Los nodos deberían intercambiar resultados estructurados, no conversaciones largas.&lt;/p&gt;
&lt;p&gt;Esto hace cada nodo más corto, más fácil para modelos pequeños y más medible.&lt;/p&gt;
&lt;h2 id=&#34;ejecutar-varias-réplicas-de-una-tarea&#34;&gt;Ejecutar varias réplicas de una tarea
&lt;/h2&gt;&lt;p&gt;Cuando los tokens son suficientemente baratos, una tarea no tiene por qué ejecutarse una sola vez. Puedes correrla con distintos modelos, prompts u orquestaciones, luego elegir el mejor resultado o combinar partes útiles.&lt;/p&gt;
&lt;p&gt;Sirve para diseños, copy, casos de prueba, hipótesis de bug, alternativas de refactor y Code Review. No sirve para tareas con efectos externos, estado compartido o criterios de aceptación borrosos.&lt;/p&gt;
&lt;p&gt;El objetivo no es apostar, sino obtener muestras comparables para mejorar la orquestación y la elección de modelos.&lt;/p&gt;
&lt;h2 id=&#34;construir-evaluación&#34;&gt;Construir evaluación
&lt;/h2&gt;&lt;p&gt;Token Efficiency no se mide solo por precio. Un modelo barato con alta tasa de fallo consume tiempo humano y puede salir más caro.&lt;/p&gt;
&lt;p&gt;Conviene registrar tasa de finalización, intervenciones humanas, fallos de tool calls, tests que pasan, hallazgos de review, coste por tarea, tiempo, retrabajo y diferencias entre combinaciones de modelos.&lt;/p&gt;
&lt;p&gt;Con esos datos se sabe qué tareas van bien con modelos pequeños, cuáles requieren modelos grandes y cuáles deben quedarse en manos humanas.&lt;/p&gt;
&lt;h2 id=&#34;hacer-atómicos-los-workflows&#34;&gt;Hacer atómicos los workflows
&lt;/h2&gt;&lt;p&gt;No todo el mundo tiene que construir un harness completo. Pero sí puede dividir sus procesos en nodos atómicos.&lt;/p&gt;
&lt;p&gt;Producción de contenido: tema, investigación, esquema, borrador, fact-check, estilo, título SEO, traducción y revisión de publicación.&lt;/p&gt;
&lt;p&gt;Desarrollo de software: requisitos, diseño técnico, estructura de datos, cambios de API, unit tests, implementación, migraciones, documentación y review.&lt;/p&gt;
&lt;p&gt;Cada nodo debe tener entrada, salida, aceptación y contexto claros. Cuando maduren las herramientas de harness, esos procesos podrán conectarse directamente.&lt;/p&gt;
&lt;h2 id=&#34;el-hardware-no-es-lo-primero&#34;&gt;El hardware no es lo primero
&lt;/h2&gt;&lt;p&gt;Muchas conversaciones sobre Token Efficiency saltan a despliegue local y GPU. Para la mayoría, la API debería ser la primera opción.&lt;/p&gt;
&lt;p&gt;Antes de validar el modelo económico, el hardware local es coste adelantado. Mejor: validar el workflow con API, medir coste y calidad, detectar nodos frecuentes y estables, y solo después estudiar qué merece localizar.&lt;/p&gt;
&lt;h2 id=&#34;resumen&#34;&gt;Resumen
&lt;/h2&gt;&lt;p&gt;Token Efficiency no consiste en sustituir modelos caros por baratos, sino en rediseñar el workflow de IA.&lt;/p&gt;
&lt;p&gt;Modelos grandes juzgan, modelos pequeños ejecutan, el harness orquesta y valida, y las personas definen objetivos y aceptación. Solo juntas estas capas convierten tokens en productividad.&lt;/p&gt;
&lt;p&gt;La diferencia futura quizá no esté en quién llama al modelo más fuerte, sino en quién convierte los mismos tokens en más resultados reales.&lt;/p&gt;
</description>
        </item>
        
    </channel>
</rss>
