<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>LLM on KnightLi Blog</title>
        <link>https://www.knightli.com/es/tags/llm/</link>
        <description>Recent content in LLM on KnightLi Blog</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>es</language>
        <lastBuildDate>Fri, 08 May 2026 13:41:15 +0800</lastBuildDate><atom:link href="https://www.knightli.com/es/tags/llm/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>Qué modelos locales de IA puede ejecutar un portátil RTX 4060 8GB</title>
        <link>https://www.knightli.com/es/2026/05/08/laptop-rtx-4060-8gb-local-ai-models/</link>
        <pubDate>Fri, 08 May 2026 13:41:15 +0800</pubDate>
        
        <guid>https://www.knightli.com/es/2026/05/08/laptop-rtx-4060-8gb-local-ai-models/</guid>
        <description>&lt;p&gt;Un portátil con RTX 4060 8GB puede ejecutar IA local, pero el límite es claro: lo importante no es si el modelo arranca, sino si cabe en VRAM. La versión móvil también depende de potencia, refrigeración, ancho de banda de memoria y ajustes del fabricante.&lt;/p&gt;
&lt;p&gt;En 2026, 8GB de VRAM siguen siendo la línea de entrada para IA local. Con modelos cuantizados y herramientas adecuadas, puedes ejecutar LLM de 3B-8B, SDXL, SD 1.5, algunos flujos FLUX cuantizados, Whisper y extracción de características de imagen. Si fuerzas LLM de 14B+, modelos grandes sin cuantizar o flujos de imagen pesados, el rendimiento cae cuando se usa memoria del sistema.&lt;/p&gt;
&lt;p&gt;Resumen: no persigas el modelo más grande. Usa modelos pequeños, pesos cuantizados y flujos de baja VRAM.&lt;/p&gt;
&lt;h2 id=&#34;presupuesto-de-vram&#34;&gt;Presupuesto de VRAM
&lt;/h2&gt;&lt;p&gt;Windows 11, navegadores, drivers y procesos de fondo ya consumen memoria de GPU. El presupuesto real suele estar más cerca de 6.5GB-7.2GB que de los 8GB completos.&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;LLM: 3B-8B con cuantización 4-bit.&lt;/li&gt;
&lt;li&gt;Imagen: SDXL, SD 1.5 y FLUX GGUF/NF4 low-VRAM.&lt;/li&gt;
&lt;li&gt;Multimodal: modelos ligeros de unos 4B.&lt;/li&gt;
&lt;li&gt;Voz: Whisper large-v3 funciona, pero los lotes largos calientan.&lt;/li&gt;
&lt;li&gt;Indexación: CLIP, ViT y SigLIP encajan muy bien.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Un modelo pequeño completo en GPU suele ir mejor que uno grande con mucho offload.&lt;/p&gt;
&lt;h2 id=&#34;llm-modelos-cuantizados-de-3b-8b&#34;&gt;LLM: modelos cuantizados de 3B-8B
&lt;/h2&gt;&lt;p&gt;Para chat y razonamiento local, usa Ollama, LM Studio, koboldcpp, llama.cpp u otro frontend compatible con GGUF. El punto cómodo en 8GB es 3B-8B en 4-bit.&lt;/p&gt;
&lt;h3 id=&#34;ligero-general-gemma-4-e4b&#34;&gt;Ligero general: Gemma 4 E4B
&lt;/h3&gt;&lt;p&gt;Gemma 4 E4B es uno de los modelos pequeños de la familia Gemma 4 de Google lanzada en 2026. Es adecuado para uso local y edge: preguntas, resúmenes, organización ligera, tareas multimodales simples e inferencia barata.&lt;/p&gt;
&lt;p&gt;En una RTX 4060 de portátil, empieza por una versión cuantizada oficial o comunitaria. No comiences con los pesos de mayor precisión.&lt;/p&gt;
&lt;h3 id=&#34;razonamiento-deepseek-r1-distill-7b8b-qwen-3-8b&#34;&gt;Razonamiento: DeepSeek R1 Distill 7B/8B, Qwen 3 8B
&lt;/h3&gt;&lt;p&gt;Para lógica, matemáticas, análisis complejo y texto largo, prueba DeepSeek R1 distill 7B/8B o Qwen 3 8B cuantizado.&lt;/p&gt;
&lt;p&gt;Con &lt;code&gt;Q4_K_M&lt;/code&gt;, los modelos de 8B suelen entrar en el presupuesto de una GPU de 8GB. La velocidad depende del contexto, backend, driver y modo de energía.&lt;/p&gt;
&lt;p&gt;No empieces con 14B, 32B o más. Aunque arranquen con CPU offload, la experiencia suele ser peor que con un modelo menor completamente en GPU.&lt;/p&gt;
&lt;h3 id=&#34;código-qwen-25-coder-3b7b&#34;&gt;Código: Qwen 2.5 Coder 3B/7B
&lt;/h3&gt;&lt;p&gt;Qwen 2.5 Coder 3B es rápido y útil para autocompletado, explicación y generación pequeña. El 7B entiende mejor, pero consume más VRAM y tarda más.&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Autocompletado: 3B.&lt;/li&gt;
&lt;li&gt;Q&amp;amp;A y explicación: 3B o 7B.&lt;/li&gt;
&lt;li&gt;Refactors pequeños: 7B cuantizado.&lt;/li&gt;
&lt;li&gt;Arquitectura grande: no esperes meter todo el proyecto en 8GB.&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;imagen-sdxl-estable-flux-cuantizado&#34;&gt;Imagen: SDXL estable, FLUX cuantizado
&lt;/h2&gt;&lt;p&gt;SD 1.5 es muy amigable con 8GB, rápido y maduro. SDXL consume más pero sigue siendo viable.&lt;/p&gt;
&lt;p&gt;Herramientas:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;ComfyUI&lt;/li&gt;
&lt;li&gt;Stable Diffusion WebUI Forge&lt;/li&gt;
&lt;li&gt;Fooocus&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;FLUX ofrece mejor calidad y comprensión de prompt, pero los modelos originales son pesados. En 8GB usa GGUF, NF4, FP8 u otras rutas low-VRAM con ComfyUI-GGUF.&lt;/p&gt;
&lt;p&gt;Consejos:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Usa FLUX.1 schnell GGUF Q4/Q5.&lt;/li&gt;
&lt;li&gt;Reduce resolución o batch size.&lt;/li&gt;
&lt;li&gt;Usa &lt;code&gt;--lowvram&lt;/code&gt; en ComfyUI.&lt;/li&gt;
&lt;li&gt;No combines demasiados LoRA, ControlNet y hi-res fix.&lt;/li&gt;
&lt;li&gt;Vigila si la VRAM se libera al cambiar de workflow.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Puedes probar 1024px, pero no copies flujos pensados para GPUs de 16GB/24GB.&lt;/p&gt;
&lt;h2 id=&#34;multimodal-y-utilidades&#34;&gt;Multimodal y utilidades
&lt;/h2&gt;&lt;p&gt;Whisper large-v3 sirve para transcripción de audio. Para lotes largos, activa modo rendimiento y cuida la temperatura.&lt;/p&gt;
&lt;p&gt;Para un sistema de búsqueda de fotos, la RTX 4060 8GB es muy adecuada. CLIP, ViT y SigLIP no consumen VRAM extrema y procesan miles de imágenes con rapidez.&lt;/p&gt;
&lt;p&gt;Flujo típico:&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;Extraer embeddings con CLIP/ViT/SigLIP.&lt;/li&gt;
&lt;li&gt;Guardarlos en SQLite o una base vectorial.&lt;/li&gt;
&lt;li&gt;Buscar por texto o imagen similar.&lt;/li&gt;
&lt;li&gt;Usar un LLM pequeño para etiquetas, descripciones o resúmenes.&lt;/li&gt;
&lt;/ol&gt;
&lt;h2 id=&#34;combos-recomendados&#34;&gt;Combos recomendados
&lt;/h2&gt;&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;Ollama / LM Studio
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;+ Gemma 4 E4B cuantizado
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;+ DeepSeek R1 Distill 7B/8B Q4
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;+ Qwen 3 8B Q4
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;Qwen 2.5 Coder 3B
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;+ Qwen 2.5 Coder 7B Q4
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;+ Continue / Cline / servidor local OpenAI-compatible
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;ComfyUI / Forge
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;+ SDXL
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;+ SD 1.5
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;+ FLUX.1 schnell GGUF Q4/Q5
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;CLIP / SigLIP / ViT
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;+ SQLite / FAISS / LanceDB
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;+ Gemma 4 E4B o Phi-4 Mini para organizar texto
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h2 id=&#34;errores-comunes&#34;&gt;Errores comunes
&lt;/h2&gt;&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;Escenario&lt;/th&gt;
          &lt;th&gt;Consejo&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;Modelos grandes&lt;/td&gt;
          &lt;td&gt;Evita 14B+ salvo que aceptes lentitud&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Cuantización&lt;/td&gt;
          &lt;td&gt;Empieza con &lt;code&gt;Q4_K_M&lt;/code&gt;; prueba Q5 si necesitas calidad&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;VRAM&lt;/td&gt;
          &lt;td&gt;Monitoriza con Task Manager o &lt;code&gt;nvidia-smi&lt;/code&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Temperatura&lt;/td&gt;
          &lt;td&gt;Usa modo rendimiento para imagen y lotes&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Resolución&lt;/td&gt;
          &lt;td&gt;Empieza con 768px o una imagen 1024px&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Navegador&lt;/td&gt;
          &lt;td&gt;Cierra pestañas pesadas en GPU&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Driver&lt;/td&gt;
          &lt;td&gt;Mantén NVIDIA actualizado&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Workflows&lt;/td&gt;
          &lt;td&gt;No copies flujos ComfyUI de 16GB/24GB directamente&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id=&#34;mi-recomendación&#34;&gt;Mi recomendación
&lt;/h2&gt;&lt;p&gt;Un portátil RTX 4060 8GB es una plataforma local de entrada con buena relación coste/rendimiento. Encaja con LLM 3B-8B, modelos pequeños de código, SDXL, SD 1.5, FLUX cuantizado, Whisper, búsqueda vectorial de imágenes y gestión local de fotos.&lt;/p&gt;
&lt;p&gt;No encaja bien con uso prolongado de 14B/32B, modelos grandes sin cuantizar, FLUX por lotes de alta resolución, generación de video grande o muchos modelos residentes a la vez.&lt;/p&gt;
&lt;p&gt;Para búsqueda de fotos, usa la GPU para extracción CLIP/SigLIP y etiquetado con modelos pequeños, y guarda vectores en SQLite, FAISS o LanceDB.&lt;/p&gt;
&lt;h2 id=&#34;referencias&#34;&gt;Referencias
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://deepmind.google/models/gemma/gemma-4/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Google DeepMind: Gemma 4&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/google/gemma-4-E4B&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;google/gemma-4-E4B&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://arxiv.org/abs/2501.12948&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Paper de DeepSeek-R1&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://comfyui-wiki.com/en/tutorial/advanced/image/flux/flux-1-dev-t2i&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Guía ComfyUI FLUX.1 GGUF&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/vava22684/FLUX.1-schnell-gguf&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;FLUX.1 schnell GGUF&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>Modelos LLM locales recomendados para una GPU RTX 3060</title>
        <link>https://www.knightli.com/es/2026/05/08/rtx-3060-local-llm-models/</link>
        <pubDate>Fri, 08 May 2026 09:25:24 +0800</pubDate>
        
        <guid>https://www.knightli.com/es/2026/05/08/rtx-3060-local-llm-models/</guid>
        <description>&lt;p&gt;La versión más común de la RTX 3060 tiene 12GB de VRAM. No es una GPU de IA de gama alta, pero funciona muy bien para LLM locales, especialmente modelos de 7B, 8B, 9B y 12B.&lt;/p&gt;
&lt;p&gt;Si solo quieres una regla rápida:&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;En una RTX 3060 12GB, prioriza modelos de alrededor de 8B en cuantización Q4_K_M o Q5_K_M. Elige Q4 para más estabilidad y prueba Q5 si quieres mejor calidad.&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;No empieces persiguiendo modelos de 32B o 70B. Aunque puedan ejecutarse con cuantización muy baja y CPU offload, la velocidad y la experiencia normalmente no son adecuadas para uso diario.&lt;/p&gt;
&lt;h2 id=&#34;primero-mira-el-límite-de-vram&#34;&gt;Primero mira el límite de VRAM
&lt;/h2&gt;&lt;p&gt;Al ejecutar LLM locales en una RTX 3060 12GB, el límite real es la VRAM.&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;Tamaño del modelo&lt;/th&gt;
          &lt;th&gt;Cuantización recomendada&lt;/th&gt;
          &lt;th&gt;Experiencia en RTX 3060 12GB&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;3B / 4B&lt;/td&gt;
          &lt;td&gt;Q4, Q5, Q8&lt;/td&gt;
          &lt;td&gt;Muy fácil, rápido&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;7B / 8B / 9B&lt;/td&gt;
          &lt;td&gt;Q4_K_M, Q5_K_M&lt;/td&gt;
          &lt;td&gt;Lo más recomendado; buen equilibrio&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;12B / 14B&lt;/td&gt;
          &lt;td&gt;Q4_K_M&lt;/td&gt;
          &lt;td&gt;Se puede probar, cuidado con contexto grande&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;30B+&lt;/td&gt;
          &lt;td&gt;Q2 / Q3 o offload parcial&lt;/td&gt;
          &lt;td&gt;Se puede experimentar, no diario&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;70B+&lt;/td&gt;
          &lt;td&gt;Cuantización extrema o mucha CPU/RAM&lt;/td&gt;
          &lt;td&gt;Más bien experimental&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;Un LLM local no solo consume VRAM por el archivo del modelo. También consumen contexto, KV cache, batch size, framework de inferencia y drivers.&lt;/p&gt;
&lt;p&gt;Por eso 12GB de VRAM no significa cargar sin más un archivo de modelo de 12GB. Es mejor dejar margen para el sistema y el contexto.&lt;/p&gt;
&lt;h2 id=&#34;recomendación-1-qwen3-8b&#34;&gt;Recomendación 1: Qwen3 8B
&lt;/h2&gt;&lt;p&gt;Si usas principalmente chino, &lt;code&gt;Qwen3 8B&lt;/code&gt; es uno de los primeros modelos que vale la pena probar en una RTX 3060.&lt;/p&gt;
&lt;p&gt;Sirve para:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Preguntas y respuestas en chino.&lt;/li&gt;
&lt;li&gt;Resumen y reescritura.&lt;/li&gt;
&lt;li&gt;Asistente diario de conocimiento.&lt;/li&gt;
&lt;li&gt;Explicación simple de código.&lt;/li&gt;
&lt;li&gt;RAG local.&lt;/li&gt;
&lt;li&gt;Flujos Agent ligeros.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Elección recomendada:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;Qwen3 8B GGUF
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;Q4_K_M: primera opción
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;Q5_K_M: mejor calidad, más presión de VRAM
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;La familia Qwen suele funcionar bien con chino. Para escritura diaria, organización de información y comprensión de instrucciones en chino, Qwen3 8B es un buen punto de partida.&lt;/p&gt;
&lt;h2 id=&#34;recomendación-2-llama-31-8b-instruct&#34;&gt;Recomendación 2: Llama 3.1 8B Instruct
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;Llama 3.1 8B Instruct&lt;/code&gt; es un modelo general estable, con buena capacidad en inglés y ecosistema maduro.&lt;/p&gt;
&lt;p&gt;Sirve para:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Preguntas en inglés.&lt;/li&gt;
&lt;li&gt;Ayuda ligera con código.&lt;/li&gt;
&lt;li&gt;Chat general.&lt;/li&gt;
&lt;li&gt;Resumen de documentos.&lt;/li&gt;
&lt;li&gt;Pruebas de prompts.&lt;/li&gt;
&lt;li&gt;Comparar herramientas de inferencia.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Elección recomendada:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;Llama 3.1 8B Instruct GGUF
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;Q4_K_M: mejor velocidad y estabilidad de VRAM
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;Q5_K_M: mejor calidad de respuesta
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Si procesas sobre todo material en inglés, o quieres un modelo con muchos tutoriales y buena compatibilidad, Llama 3.1 8B sigue siendo una buena base.&lt;/p&gt;
&lt;h2 id=&#34;recomendación-3-gemma-3-12b&#34;&gt;Recomendación 3: Gemma 3 12B
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;Gemma 3 12B&lt;/code&gt; está más cerca del límite práctico de una RTX 3060 12GB.&lt;/p&gt;
&lt;p&gt;Consume más VRAM que los modelos 8B, pero con cuantización Q4 todavía puede funcionar en una tarjeta de 12GB. Es una opción para quien quiera probar un modelo algo mayor en una sola GPU.&lt;/p&gt;
&lt;p&gt;Sirve para:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Preguntas generales de mayor calidad.&lt;/li&gt;
&lt;li&gt;Procesamiento de contenido en inglés.&lt;/li&gt;
&lt;li&gt;Resúmenes y análisis algo más complejos.&lt;/li&gt;
&lt;li&gt;Probar una mejora sobre modelos 8B.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Elección recomendada:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;Gemma 3 12B GGUF
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;Q4_K_M u oficial QAT Q4
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;No abras demasiado el contexto
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Si falta VRAM, reduce primero la longitud de contexto o vuelve a un modelo 8B. Para una 3060, 12B es &amp;ldquo;probable&amp;rdquo;, no una recomendación automática.&lt;/p&gt;
&lt;h2 id=&#34;recomendación-4-deepseek-r1-distill-qwen-8b&#34;&gt;Recomendación 4: DeepSeek R1 Distill Qwen 8B
&lt;/h2&gt;&lt;p&gt;Si quieres probar modelos locales con estilo de razonamiento, puedes usar modelos como &lt;code&gt;DeepSeek R1 Distill Qwen 8B&lt;/code&gt;.&lt;/p&gt;
&lt;p&gt;Sirve para:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Problemas simples de razonamiento.&lt;/li&gt;
&lt;li&gt;Análisis por pasos.&lt;/li&gt;
&lt;li&gt;Aprender el estilo de salida de modelos de razonamiento.&lt;/li&gt;
&lt;li&gt;Experimentos locales de bajo costo.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Elección recomendada:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;DeepSeek R1 Distill Qwen 8B GGUF
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;Q4_K_M
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Estos modelos a veces generan procesos de razonamiento más largos, así que la velocidad y el uso de contexto pueden sentirse más pesados que en modelos instruct normales. Para chat diario no siempre son más cómodos que Qwen3 8B, pero sirven bien para experimentar.&lt;/p&gt;
&lt;h2 id=&#34;recomendación-5-phi--minicpm--modelos-pequeños&#34;&gt;Recomendación 5: Phi / MiniCPM / modelos pequeños
&lt;/h2&gt;&lt;p&gt;Si tu 3060 es de 8GB, o tu RAM también es limitada, considera primero modelos de 3B o 4B.&lt;/p&gt;
&lt;p&gt;Sirven para:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Preguntas rápidas.&lt;/li&gt;
&lt;li&gt;Resúmenes simples.&lt;/li&gt;
&lt;li&gt;Integración en pequeñas herramientas locales.&lt;/li&gt;
&lt;li&gt;Chat de baja latencia.&lt;/li&gt;
&lt;li&gt;Pruebas en equipos antiguos.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;No siempre igualan la calidad de 8B o 12B, pero son ligeros, rápidos y fáciles de desplegar.&lt;/p&gt;
&lt;h2 id=&#34;cómo-elegir-cuantización&#34;&gt;Cómo elegir cuantización
&lt;/h2&gt;&lt;p&gt;El formato local común es &lt;code&gt;GGUF&lt;/code&gt;, con cuantizaciones como Q4, Q5, Q6 y Q8.&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;Cuantización&lt;/th&gt;
          &lt;th&gt;Características&lt;/th&gt;
          &lt;th&gt;Mejor para&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;Q4_K_M&lt;/td&gt;
          &lt;td&gt;Pequeña, rápida, calidad suficiente&lt;/td&gt;
          &lt;td&gt;Primera opción en 3060&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Q5_K_M&lt;/td&gt;
          &lt;td&gt;Mejor calidad, más consumo&lt;/td&gt;
          &lt;td&gt;Probar con modelos 8B&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Q6 / Q8&lt;/td&gt;
          &lt;td&gt;Más cerca de calidad original, más grande&lt;/td&gt;
          &lt;td&gt;Modelos pequeños o más VRAM&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Q2 / Q3&lt;/td&gt;
          &lt;td&gt;Ahorra VRAM, baja calidad notable&lt;/td&gt;
          &lt;td&gt;Experimentar con modelos grandes&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;Para RTX 3060 12GB, lo más práctico es:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;Modelos 8B: Q4_K_M o Q5_K_M
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;Modelos 12B: primero Q4_K_M
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;Modelos mayores: no recomendados como uso diario
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h2 id=&#34;qué-herramienta-usar&#34;&gt;Qué herramienta usar
&lt;/h2&gt;&lt;p&gt;Los principiantes pueden empezar con &lt;code&gt;Ollama&lt;/code&gt;, porque instalar y ejecutar modelos es sencillo.&lt;/p&gt;
&lt;p&gt;Comandos comunes:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;ollama run qwen3:8b
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;ollama run llama3.1:8b
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Si quieres controlar mejor archivos GGUF, GPU layers y longitud de contexto, usa &lt;code&gt;llama.cpp&lt;/code&gt; o herramientas gráficas basadas en llama.cpp.&lt;/p&gt;
&lt;p&gt;Opciones comunes:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Ollama&lt;/code&gt;: lo más simple, ideal para empezar.&lt;/li&gt;
&lt;li&gt;&lt;code&gt;LM Studio&lt;/code&gt;: interfaz gráfica amigable, útil para descargar y cambiar modelos.&lt;/li&gt;
&lt;li&gt;&lt;code&gt;llama.cpp&lt;/code&gt;: control más fino, bueno para ajustar rendimiento.&lt;/li&gt;
&lt;li&gt;&lt;code&gt;text-generation-webui&lt;/code&gt;: muchas funciones, útil para probar backends.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Para chat local y preguntas simples, Ollama o LM Studio bastan.&lt;/p&gt;
&lt;h2 id=&#34;no-abras-demasiado-el-contexto&#34;&gt;No abras demasiado el contexto
&lt;/h2&gt;&lt;p&gt;Muchos modelos anuncian soporte de contexto largo, pero en una RTX 3060 no conviene usar siempre el máximo.&lt;/p&gt;
&lt;p&gt;Cuanto más largo el contexto, más KV cache se usa y mayor presión de VRAM. Incluso si el modelo carga, un contexto largo puede reducir la velocidad.&lt;/p&gt;
&lt;p&gt;Sugerencia:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;Chat normal: 4K a 8K
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;Resumen de documentos: 8K a 16K
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;RAG de documentos largos: divide primero; no pegues todo de una vez
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;La 3060 funciona mejor con &amp;ldquo;contexto medio + buen modelo + buena recuperación&amp;rdquo; que intentando meter cientos de miles de tokens.&lt;/p&gt;
&lt;h2 id=&#34;elegir-según-uso&#34;&gt;Elegir según uso
&lt;/h2&gt;&lt;p&gt;Si escribes principalmente en chino:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;Primero: Qwen3 8B Q4_K_M
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;Alternativa: DeepSeek R1 Distill Qwen 8B
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Si escribes principalmente en inglés:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;Primero: Llama 3.1 8B Instruct Q4_K_M
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;Alternativa: Gemma 3 12B Q4_K_M
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Si quieres velocidad:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;Modelos 3B / 4B
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;8B Q4_K_M
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;Contexto entre 4K y 8K
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Si quieres más calidad:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;8B Q5_K_M
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;12B Q4_K_M
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;Acepta menor velocidad
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Si quieres ayuda con código:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;Modelos de código 8B sirven para explicar y pequeños cambios
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;Para ingeniería compleja, usa modelos cloud más fuertes
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Los modelos locales en 3060 son útiles para explicar código, completar funciones, generar scripts pequeños y ayudar sin conexión. Para grandes refactors, bugs complejos y tareas Agent entre archivos, no esperes rendimiento al nivel de Claude Sonnet o GPT-5.&lt;/p&gt;
&lt;h2 id=&#34;expectativas-razonables&#34;&gt;Expectativas razonables
&lt;/h2&gt;&lt;p&gt;La RTX 3060 12GB puede convertir los LLM locales de &amp;ldquo;juguete&amp;rdquo; en herramienta diaria, pero no replica modelos cloud de primera línea en casa.&lt;/p&gt;
&lt;p&gt;Ventajas:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Bajo costo.&lt;/li&gt;
&lt;li&gt;Más VRAM que tarjetas de 8GB.&lt;/li&gt;
&lt;li&gt;Buena experiencia con modelos 8B.&lt;/li&gt;
&lt;li&gt;Uso offline.&lt;/li&gt;
&lt;li&gt;Procesamiento local de datos sensibles.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Límites:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Modelos grandes no van fluidos.&lt;/li&gt;
&lt;li&gt;Contexto largo consume VRAM.&lt;/li&gt;
&lt;li&gt;Menor velocidad que tarjetas de gama alta.&lt;/li&gt;
&lt;li&gt;Modelos locales pequeños tienen razonamiento complejo limitado.&lt;/li&gt;
&lt;li&gt;Multimodalidad y flujos Agent consumen más recursos.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;La ruta estable es: usar 8B como asistente local diario, probar 12B para mejor calidad y dejar tareas complejas a modelos cloud.&lt;/p&gt;
&lt;h2 id=&#34;resumen&#34;&gt;Resumen
&lt;/h2&gt;&lt;p&gt;Modelos locales recomendados para RTX 3060 12GB:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Chino general: &lt;code&gt;Qwen3 8B Q4_K_M&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;Inglés general: &lt;code&gt;Llama 3.1 8B Instruct Q4_K_M&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;Prueba de más calidad: &lt;code&gt;Gemma 3 12B Q4_K_M&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;Experimento de razonamiento: &lt;code&gt;DeepSeek R1 Distill Qwen 8B Q4_K_M&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;Experiencia rápida con poca VRAM: modelos pequeños 3B / 4B&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Elige primero &lt;code&gt;Q4_K_M&lt;/code&gt;; en modelos 8B puedes probar &lt;code&gt;Q5_K_M&lt;/code&gt;. Empieza con Ollama o LM Studio.&lt;/p&gt;
&lt;p&gt;No trates la 3060 como un servidor de grandes modelos. Úsala como asistente local de conocimiento, procesador privado de documentos, ayuda ligera de código y tarjeta de experimentación, y encajará mejor con sus capacidades reales.&lt;/p&gt;
&lt;h2 id=&#34;referencias&#34;&gt;Referencias
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;Qwen3 8B GGUF: &lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/Qwen/Qwen3-8B-GGUF&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://huggingface.co/Qwen/Qwen3-8B-GGUF&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;Llama 3.1 8B GGUF: &lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/macandchiz/Llama-3.1-8B-Instruct-GGUF&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://huggingface.co/macandchiz/Llama-3.1-8B-Instruct-GGUF&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;Gemma 3 12B GGUF: &lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/unsloth/gemma-3-12b-it-GGUF&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://huggingface.co/unsloth/gemma-3-12b-it-GGUF&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;llama.cpp: &lt;a class=&#34;link&#34; href=&#34;https://github.com/ggml-org/llama.cpp&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://github.com/ggml-org/llama.cpp&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;Ollama: &lt;a class=&#34;link&#34; href=&#34;https://ollama.com&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://ollama.com&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>TradingAgents-CN: un marco multiagente de investigación de trading financiero para usuarios chinos</title>
        <link>https://www.knightli.com/es/2026/05/01/tradingagents-cn-multi-agent-financial-research-framework/</link>
        <pubDate>Fri, 01 May 2026 03:14:15 +0800</pubDate>
        
        <guid>https://www.knightli.com/es/2026/05/01/tradingagents-cn-multi-agent-financial-research-framework/</guid>
        <description>&lt;p&gt;&lt;code&gt;TradingAgents-CN&lt;/code&gt; es un marco de investigación de trading financiero multiagente orientado a usuarios chinos.&lt;/p&gt;
&lt;p&gt;Su objetivo no es dar una respuesta simple a &amp;ldquo;qué acción comprar&amp;rdquo;, sino usar varios AI Agent para simular un equipo de análisis financiero más completo: alguien observa los fundamentales, alguien mira el análisis técnico, alguien sigue noticias y sentimiento, y alguien se encarga del riesgo y de la decisión final. Para quienes quieren estudiar LLM + Agent + análisis financiero, este tipo de proyecto es una buena puerta de entrada experimental.&lt;/p&gt;
&lt;p&gt;Primero hay que dejar algo claro: estas herramientas son adecuadas para aprendizaje, investigación y análisis asistido, y no deben tratarse como asesoramiento real de trading. Los mercados financieros tienen riesgo, y las salidas del modelo también pueden ser erróneas, retrasadas o demasiado confiadas.&lt;/p&gt;
&lt;h2 id=&#34;qué-problema-resuelve&#34;&gt;Qué problema resuelve
&lt;/h2&gt;&lt;p&gt;Un modelo de chat común también puede analizar acciones, por supuesto.&lt;/p&gt;
&lt;p&gt;Puedes preguntar directamente: &amp;ldquo;Ayúdame a analizar si cierta empresa se puede comprar.&amp;rdquo; El modelo dará una respuesta que parece completa. Pero ese enfoque tiene varios problemas:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;La cadena de análisis no es transparente&lt;/li&gt;
&lt;li&gt;Las distintas dimensiones se mezclan con facilidad&lt;/li&gt;
&lt;li&gt;Falta división de roles&lt;/li&gt;
&lt;li&gt;Falta choque entre puntos de vista favorables y contrarios&lt;/li&gt;
&lt;li&gt;Las advertencias de riesgo pueden quedarse en una formalidad&lt;/li&gt;
&lt;li&gt;Es difícil reproducir el mismo proceso de análisis&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;La idea de &lt;code&gt;TradingAgents-CN&lt;/code&gt; es dividir el análisis financiero en varios roles, dejar que distintos Agent se encarguen de distintas perspectivas y formar el resultado mediante colaboración, discusión y síntesis.&lt;/p&gt;
&lt;p&gt;Esto se acerca más al proceso real de investigación de inversión. Un juicio de inversión normalmente no mira solo una noticia o un indicador técnico, sino que combina fundamentales de la empresa, entorno de mercado, tendencia de precios, sentimiento de capital, riesgo regulatorio y control de posición.&lt;/p&gt;
&lt;h2 id=&#34;qué-significa-análisis-multiagente&#34;&gt;Qué significa análisis multiagente
&lt;/h2&gt;&lt;p&gt;Multiagente no significa simplemente dejar que varios modelos hablen por turnos.&lt;/p&gt;
&lt;p&gt;Una práctica más valiosa es asignar responsabilidades claras a distintos Agent. Por ejemplo:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Agent de análisis de mercado: observa tendencias de mercado, cambios de precio y entorno general&lt;/li&gt;
&lt;li&gt;Agent de análisis fundamental: observa negocio de la empresa, datos financieros y valor de largo plazo&lt;/li&gt;
&lt;li&gt;Agent de análisis de noticias: observa anuncios, noticias, opinión pública e impacto de eventos&lt;/li&gt;
&lt;li&gt;Agent de análisis técnico: observa tendencias, indicadores, soportes, resistencias y señales de trading&lt;/li&gt;
&lt;li&gt;Agent de gestión de riesgo: observa volatilidad, drawdown, posición e incertidumbre&lt;/li&gt;
&lt;li&gt;Agent de decisión: integra distintas opiniones y forma el juicio final&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Esta estructura puede reducir el problema de que un único modelo &amp;ldquo;diga todas las conclusiones de una vez&amp;rdquo;.&lt;/p&gt;
&lt;p&gt;Cuando distintos roles analizan el mismo objetivo, el sistema puede presentar juicios multidimensionales con más facilidad y también exponer discrepancias. Para quien aprende, esto suele aportar más que leer solo un resumen.&lt;/p&gt;
&lt;h2 id=&#34;por-qué-hace-falta-una-versión-china&#34;&gt;Por qué hace falta una versión china
&lt;/h2&gt;&lt;p&gt;El análisis financiero está muy ligado al entorno lingüístico.&lt;/p&gt;
&lt;p&gt;Las fuentes de información que siguen los usuarios chinos, los hábitos del mercado, los nombres de acciones, los sistemas de negociación, el estilo de las noticias y los términos comunes son distintos de los del entorno inglés. Al usar directamente un marco en inglés, aparecen a menudo varios problemas:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Los nombres y códigos de acciones chinas no se procesan con fluidez&lt;/li&gt;
&lt;li&gt;Se mezclan contextos de acciones A, acciones de Hong Kong y acciones estadounidenses&lt;/li&gt;
&lt;li&gt;La comprensión de noticias financieras chinas es inestable&lt;/li&gt;
&lt;li&gt;No es cómodo integrar fuentes de datos nacionales&lt;/li&gt;
&lt;li&gt;El estilo de salida no encaja con los hábitos de lectura de usuarios chinos&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;El valor de &lt;code&gt;TradingAgents-CN&lt;/code&gt; está en adaptar este proceso de análisis financiero multiagente al usuario chino. Hace más fácil construir, ejecutar y entender todo el flujo experimental de análisis de trading.&lt;/p&gt;
&lt;h2 id=&#34;para-qué-se-puede-usar&#34;&gt;Para qué se puede usar
&lt;/h2&gt;&lt;p&gt;Este proyecto es más adecuado para investigación y análisis asistido que para órdenes automáticas.&lt;/p&gt;
&lt;p&gt;Usos relativamente adecuados:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Aprender cómo colaboran los sistemas multiagente&lt;/li&gt;
&lt;li&gt;Investigar el rendimiento de LLM en análisis financiero&lt;/li&gt;
&lt;li&gt;Organizar información de una acción desde múltiples ángulos&lt;/li&gt;
&lt;li&gt;Comparar diferencias entre modelos en tareas de investigación de inversión&lt;/li&gt;
&lt;li&gt;Construir tu propio prototipo de Agent de análisis financiero&lt;/li&gt;
&lt;li&gt;Revisar información histórica y puntos de riesgo de un activo&lt;/li&gt;
&lt;li&gt;Practicar la división del proceso de investigación de inversión en tareas ejecutables&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Si estás estudiando trading cuantitativo, ingeniería financiera, AI Agent o desarrollo de aplicaciones LLM, este tipo de proyecto puede ayudarte a entender la estructura de ingeniería detrás de un &amp;ldquo;asistente de investigación de inversión con IA&amp;rdquo;.&lt;/p&gt;
&lt;h2 id=&#34;para-qué-no-es-adecuado&#34;&gt;Para qué no es adecuado
&lt;/h2&gt;&lt;p&gt;No es adecuado tratarlo directamente como una herramienta para ganar dinero de forma segura.&lt;/p&gt;
&lt;p&gt;Especialmente no es adecuado para:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Comprar o vender con toda la posición solo según la salida&lt;/li&gt;
&lt;li&gt;Sustituir tu propio juicio de riesgo por la conclusión del modelo&lt;/li&gt;
&lt;li&gt;Tratar predicciones de precio de corto plazo como resultados seguros&lt;/li&gt;
&lt;li&gt;Ignorar costes de transacción, slippage y liquidez&lt;/li&gt;
&lt;li&gt;Conectarlo a una cuenta real sin backtesting&lt;/li&gt;
&lt;li&gt;Sustituir una estrategia de inversión de largo plazo por una conclusión de análisis puntual&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Los LLM son buenos organizando información, generando explicaciones y simulando procesos de razonamiento, pero no poseen de forma natural una capacidad estable para predecir mercados. En los mercados financieros hay mucho ruido, eventos repentinos y juego conductual; la salida del modelo solo puede ser una referencia más.&lt;/p&gt;
&lt;h2 id=&#34;diferencia-frente-a-un-marco-cuantitativo-común&#34;&gt;Diferencia frente a un marco cuantitativo común
&lt;/h2&gt;&lt;p&gt;Los marcos cuantitativos tradicionales prestan más atención a datos, factores, backtesting, optimización de carteras y ejecución de trading.&lt;/p&gt;
&lt;p&gt;Por ejemplo, puedes definir reglas de estrategia:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Ruptura de media móvil&lt;/li&gt;
&lt;li&gt;Factor de momentum&lt;/li&gt;
&lt;li&gt;Factor de valor&lt;/li&gt;
&lt;li&gt;Filtro de volatilidad&lt;/li&gt;
&lt;li&gt;Stop loss y take profit&lt;/li&gt;
&lt;li&gt;Gestión de posición&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Después usas datos históricos para hacer backtesting.&lt;/p&gt;
&lt;p&gt;&lt;code&gt;TradingAgents-CN&lt;/code&gt; se inclina más hacia un &amp;ldquo;marco de análisis con agentes&amp;rdquo;. Lo que le importa es cómo hacer que varios LLM Agent colaboren alrededor de una tarea financiera, cómo simular una discusión de research y cómo organizar noticias, fundamentales, análisis técnico y juicio de riesgo.&lt;/p&gt;
&lt;p&gt;No son enfoques que se sustituyan entre sí.&lt;/p&gt;
&lt;p&gt;Un uso más realista es: el sistema cuantitativo tradicional se encarga de reglas verificables y backtesting; el sistema de Agent se encarga de organización de información, generación de informes, comparación de opiniones y apoyo a la decisión. Que finalmente pueda entrar en trading real depende todavía de backtesting riguroso, control de riesgo y revisión humana.&lt;/p&gt;
&lt;h2 id=&#34;diferencia-frente-a-preguntar-directamente-a-chatgpt&#34;&gt;Diferencia frente a preguntar directamente a ChatGPT
&lt;/h2&gt;&lt;p&gt;Preguntar directamente al modelo tiene la menor barrera de entrada, pero el proceso es muy laxo.&lt;/p&gt;
&lt;p&gt;Preguntas una vez y responde una vez. Si cambias la forma de preguntar, la conclusión puede cambiar. Es difícil garantizar que analice siempre desde las mismas dimensiones, y también es difícil hacer que interprete de forma estable varios roles que se equilibran entre sí.&lt;/p&gt;
&lt;p&gt;El valor de &lt;code&gt;TradingAgents-CN&lt;/code&gt; es estructurar el flujo de análisis:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Roles más claros&lt;/li&gt;
&lt;li&gt;Pasos más reproducibles&lt;/li&gt;
&lt;li&gt;Fuentes de información más fáciles de organizar&lt;/li&gt;
&lt;li&gt;Choque de opiniones más natural&lt;/li&gt;
&lt;li&gt;Revisión de riesgo más fácil de separar&lt;/li&gt;
&lt;li&gt;Salida más parecida al resultado de un proceso de investigación de inversión&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Esto es útil para aprendizaje e investigación. Puedes observar cómo distintos Agent influyen en la conclusión final, y también sustituir modelos, ajustar prompts o modificar la división de roles para comparar cambios en los resultados.&lt;/p&gt;
&lt;h2 id=&#34;riesgos-a-vigilar-al-usarlo&#34;&gt;Riesgos a vigilar al usarlo
&lt;/h2&gt;&lt;p&gt;Primero, calidad de datos.&lt;/p&gt;
&lt;p&gt;El análisis financiero depende mucho de los datos. Si datos de mercado, reportes financieros, noticias o anuncios son incompletos o no están actualizados, por muy fluido que sea el análisis del Agent, puede estar construido sobre una base equivocada.&lt;/p&gt;
&lt;p&gt;Segundo, alucinaciones del modelo.&lt;/p&gt;
&lt;p&gt;Un LLM puede inventar hechos inexistentes, malinterpretar el significado de los datos o tomar información antigua como nueva. Cuando se trata de acciones concretas, hay que volver a la fuente de datos para verificar.&lt;/p&gt;
&lt;p&gt;Tercero, sobreexplicación.&lt;/p&gt;
&lt;p&gt;El modelo es muy bueno dando explicaciones &amp;ldquo;que parecen razonables&amp;rdquo;, pero los cambios de precio del mercado no necesariamente vienen de las razones que enumera. No confundas explicación posterior con prueba causal.&lt;/p&gt;
&lt;p&gt;Cuarto, brecha entre backtesting y trading real.&lt;/p&gt;
&lt;p&gt;Incluso si una estrategia se comporta bien con datos históricos, en trading real seguirá enfrentándose a slippage, comisiones, liquidez, suspensiones, límites de subida/bajada y mercados extremos.&lt;/p&gt;
&lt;p&gt;Quinto, licencia y límites comerciales.&lt;/p&gt;
&lt;p&gt;El README menciona que el proyecto usa una licencia mixta. Las condiciones para aprendizaje personal, investigación y uso comercial pueden ser distintas. Si planeas incorporarlo en un producto o servicio comercial, primero lee con cuidado la licencia del proyecto.&lt;/p&gt;
&lt;h2 id=&#34;a-quién-le-conviene-estudiarlo&#34;&gt;A quién le conviene estudiarlo
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;TradingAgents-CN&lt;/code&gt; es adecuado para:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Desarrolladores que quieren aprender arquitectura de AI Agent&lt;/li&gt;
&lt;li&gt;Personas que quieren estudiar la capacidad de LLM en análisis financiero&lt;/li&gt;
&lt;li&gt;Usuarios de trading cuantitativo que quieren incorporar análisis de lenguaje natural&lt;/li&gt;
&lt;li&gt;Equipos que quieren construir herramientas auxiliares de investigación de inversión&lt;/li&gt;
&lt;li&gt;Personas interesadas en cómo la colaboración multirol afecta decisiones&lt;/li&gt;
&lt;li&gt;Usuarios que quieren experimentar con trading Agent en entorno chino&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Si tu objetivo es obtener una simple sugerencia de compra o venta, este proyecto quizá no sea la mejor forma de abrirlo. Lo que más merece atención es el proceso, los roles, la colaboración y el control de riesgo, no la conclusión de una salida puntual.&lt;/p&gt;
&lt;h2 id=&#34;cómo-puede-ampliarse&#34;&gt;Cómo puede ampliarse
&lt;/h2&gt;&lt;p&gt;Este tipo de marco tiene muchas direcciones de expansión:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Integrar más fuentes de datos fiables&lt;/li&gt;
&lt;li&gt;Añadir soporte para modelos locales&lt;/li&gt;
&lt;li&gt;Añadir módulo de backtesting&lt;/li&gt;
&lt;li&gt;Afinar reglas distintas para acciones A, Hong Kong y Estados Unidos&lt;/li&gt;
&lt;li&gt;Añadir Agent de análisis sectorial&lt;/li&gt;
&lt;li&gt;Añadir gestión de cartera y control de posición&lt;/li&gt;
&lt;li&gt;Reforzar citas de informes y trazabilidad de datos&lt;/li&gt;
&lt;li&gt;Combinar conclusiones de Agent con señales cuantitativas tradicionales&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Un sistema financiero de IA realmente valioso normalmente no deja que el modelo decida todo por sí solo, sino que lo inserta en un proceso verificable, trazable y controlado por riesgo.&lt;/p&gt;
&lt;h2 id=&#34;referencia&#34;&gt;Referencia
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://github.com/hsliuping/TradingAgents-CN&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;hsliuping/TradingAgents-CN&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;una-última-frase&#34;&gt;Una última frase
&lt;/h2&gt;&lt;p&gt;Lo que merece atención de &lt;code&gt;TradingAgents-CN&lt;/code&gt; no es si puede predecir la siguiente vela K, sino que divide el análisis financiero en un proceso de colaboración multiagente.&lt;/p&gt;
&lt;p&gt;Tratarlo como herramienta de aprendizaje e investigación es más razonable que tratarlo como una máquina automática de ganar dinero.&lt;/p&gt;
</description>
        </item>
        <item>
        <title>Prompt Optimizer: una herramienta de código abierto para optimización, pruebas y MCP rápidos</title>
        <link>https://www.knightli.com/es/2026/05/01/prompt-optimizer-prompt-engineering-tool/</link>
        <pubDate>Fri, 01 May 2026 03:09:07 +0800</pubDate>
        
        <guid>https://www.knightli.com/es/2026/05/01/prompt-optimizer-prompt-engineering-tool/</guid>
        <description>&lt;p&gt;&lt;code&gt;Prompt Optimizer&lt;/code&gt; es una herramienta de código abierto para mejorar las indicaciones. Su objetivo es sencillo: ayudarle a convertir una indicación aproximada en algo más claro, más estable y más fácil de seguir para modelos de lenguaje grandes.&lt;/p&gt;
&lt;p&gt;No es sólo una página que “pule mi mensaje”. El proyecto proporciona optimización rápida, prueba, comparación y evaluación de resultados, acceso a múltiples modelos, manejo de imágenes rápidas e integración MCP. Para las personas que suelen escribir avisos del sistema, avisos de usuario y plantillas de flujo de trabajo de IA, se siente más como un banco de trabajo de avisos dedicado.&lt;/p&gt;
&lt;h2 id=&#34;qué-problema-resuelve&#34;&gt;¿Qué problema resuelve?
&lt;/h2&gt;&lt;p&gt;Mucha gente se encuentra con problemas similares cuando utiliza la IA:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Las indicaciones son cada vez más largas, pero la calidad del resultado no mejora claramente&lt;/li&gt;
&lt;li&gt;La misma tarea se comporta de manera diferente después de cambiar de modelo.&lt;/li&gt;
&lt;li&gt;Las indicaciones del sistema y las indicaciones del usuario están mezcladas y son difíciles de depurar.&lt;/li&gt;
&lt;li&gt;Después de cambiar un mensaje, no está claro si la nueva versión es mejor&lt;/li&gt;
&lt;li&gt;Las plantillas variables son útiles, pero el reemplazo manual y las pruebas son tediosos&lt;/li&gt;
&lt;li&gt;La optimización rápida debería estar disponible para otras herramientas de IA, pero no existe una interfaz estándar&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;code&gt;Prompt Optimizer&lt;/code&gt; está diseñado en torno a estos problemas. Divide la “escripción de un mensaje” en optimización, prueba, evaluación, comparación e iteración, por lo que el ajuste del mensaje ya no se basa únicamente en la intuición.&lt;/p&gt;
&lt;h2 id=&#34;características-principales&#34;&gt;Características principales
&lt;/h2&gt;&lt;h3 id=&#34;1-optimice-las-indicaciones-del-sistema-y-las-indicaciones-del-usuario&#34;&gt;1. Optimice las indicaciones del sistema y las indicaciones del usuario
&lt;/h3&gt;&lt;p&gt;Hay más de un tipo de aviso.&lt;/p&gt;
&lt;p&gt;Las indicaciones del sistema suelen definir roles, objetivos, límites, reglas de salida y métodos de trabajo. Las indicaciones del usuario están más cerca de la entrada para una tarea específica. Cuando los dos se mezclan, el modelo puede perder el punto clave y la reutilización se vuelve más difícil.&lt;/p&gt;
&lt;p&gt;&lt;code&gt;Prompt Optimizer&lt;/code&gt; admite tanto la optimización de los mensajes del sistema como la optimización de los mensajes del usuario. Puede mejorar las definiciones de roles reutilizables a largo plazo por separado de la entrada para una tarea específica.&lt;/p&gt;
&lt;p&gt;Esto es útil para:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Redacción de reglas para asistentes de codificación de IA.&lt;/li&gt;
&lt;li&gt;Diseño de roles de atención al cliente, revisor, traducción y análisis.&lt;/li&gt;
&lt;li&gt;Optimización de mensajes de texto a imagen&lt;/li&gt;
&lt;li&gt;Convertir requisitos temporales en plantillas reutilizables&lt;/li&gt;
&lt;li&gt;Preparar diferentes estilos de mensajes para diferentes modelos.&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;2-probar-y-comparar-resultados&#34;&gt;2. Probar y comparar resultados
&lt;/h3&gt;&lt;p&gt;Optimizar un mensaje no es suficiente. La pregunta importante es si el mensaje optimizado realmente funciona mejor.&lt;/p&gt;
&lt;p&gt;El proyecto apoya el análisis, la evaluación de un solo resultado y la comparación de múltiples resultados. Puede ejecutar el mensaje original y el mensaje optimizado en la misma tarea y luego comparar si el resultado es más preciso, estable y está alineado con el objetivo.&lt;/p&gt;
&lt;p&gt;Esto es más práctico que las indicaciones que sólo &amp;ldquo;parecen más profesionales&amp;rdquo;. Muchas indicaciones parecen completas en la superficie, pero producen resultados detallados, rígidos o incluso mal dirigidos. Las pruebas comparativas ayudan a revelarlo tempranamente.&lt;/p&gt;
&lt;h3 id=&#34;3-soporte-multimodelo&#34;&gt;3. Soporte multimodelo
&lt;/h3&gt;&lt;p&gt;El README dice que el proyecto admite servicios modelo como OpenAI, Gemini, DeepSeek, Zhipu AI y SiliconFlow, así como API personalizadas compatibles con OpenAI.&lt;/p&gt;
&lt;p&gt;Esto es importante porque el rendimiento rápido depende en gran medida del modelo. El mismo mensaje puede comportarse de manera muy diferente entre modelos. Las pruebas multimodelo ayudan a determinar:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Si el mensaje en sí es débil&lt;/li&gt;
&lt;li&gt;Si un modelo específico no es adecuado para la tarea&lt;/li&gt;
&lt;li&gt;Si se necesitan diferentes versiones de avisos específicos del modelo&lt;/li&gt;
&lt;li&gt;Si un modelo más pequeño puede volverse utilizable con un mensaje más claro
Si utiliza Ollama localmente o su empresa tiene un servicio de modelo interno compatible con OpenAI, también se puede conectar a través de una API personalizada.&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;4-modo-de-prueba-avanzado&#34;&gt;4. Modo de prueba avanzado
&lt;/h3&gt;&lt;p&gt;El proyecto proporciona gestión de variables de contexto, pruebas de conversación de múltiples turnos y soporte de llamadas a funciones.&lt;/p&gt;
&lt;p&gt;La gestión de variables es útil para tareas con plantillas. Por ejemplo, si tiene solicitudes de respuestas de ventas de segunda mano, descripciones de productos, respuestas de correo electrónico, revisiones de códigos o generación de documentos, puede reemplazar variables como producto, precio, tono y usuario objetivo para probar diferentes entradas rápidamente.&lt;/p&gt;
&lt;p&gt;Las pruebas de conversación de varios turnos ayudan a validar el comportamiento de diálogo de larga duración. Muchas indicaciones parecen estar bien en un solo turno, pero una vez que comienzan las preguntas de seguimiento, es posible que olviden las limitaciones, se desvíen del papel o repitan explicaciones. Las pruebas de múltiples vueltas están más cerca del uso real.&lt;/p&gt;
&lt;p&gt;El soporte de llamadas de funciones es adecuado para aplicaciones de IA más orientadas a la ingeniería. Ayuda a validar el comportamiento del modelo en torno a llamadas a herramientas, generación de parámetros y resultados estructurados.&lt;/p&gt;
&lt;h3 id=&#34;5-avisos-de-generación-de-imágenes&#34;&gt;5. Avisos de generación de imágenes
&lt;/h3&gt;&lt;p&gt;&lt;code&gt;Prompt Optimizer&lt;/code&gt; también admite flujos de trabajo de texto a imagen y de imagen a imagen. El README menciona la integración con modelos de imágenes como Gemini y Seedream.&lt;/p&gt;
&lt;p&gt;La optimización de mensajes de imagen es diferente de las tareas de texto. Se centra más en el tema, la composición, la relación espacial, el estilo, el material, la iluminación, el estado de ánimo y las limitaciones. Convertir una idea vaga en una descripción visual controlable suele ser más valioso que simplemente alargar la indicación.&lt;/p&gt;
&lt;p&gt;Si genera con frecuencia imágenes de productos, portadas, ilustraciones, elementos visuales clave o referencias de estilo, este tipo de optimización es útil.&lt;/p&gt;
&lt;h2 id=&#34;formas-de-usarlo&#34;&gt;Formas de usarlo
&lt;/h2&gt;&lt;p&gt;El proyecto proporciona varios puntos de entrada:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Versión en línea&lt;/li&gt;
&lt;li&gt;Vercel autohospedado&lt;/li&gt;
&lt;li&gt;Aplicación de escritorio&lt;/li&gt;
&lt;li&gt;Extensión de Chrome&lt;/li&gt;
&lt;li&gt;Implementación de Docker&lt;/li&gt;
&lt;li&gt;Implementación de Docker Compose&lt;/li&gt;
&lt;li&gt;Servidor MCP&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;La versión en línea es buena para pruebas rápidas. El proyecto señala que es una aplicación puramente frontend: los datos se almacenan localmente en el navegador y se envían directamente a los proveedores de IA.&lt;/p&gt;
&lt;p&gt;La aplicación de escritorio es mejor cuando necesita conectarse directamente a diferentes modelos de API. Los entornos de navegador pueden encontrarse con los límites de CORS; la aplicación de escritorio evita esos problemas, especialmente cuando se conecta a Ollama local o API comerciales con políticas estrictas de origen cruzado.&lt;/p&gt;
&lt;p&gt;La implementación de Docker es adecuada para su propio servidor o entorno de intranet. El README da este comando básico:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;docker run -d -p 8081:80 --restart unless-stopped --name prompt-optimizer linshen/prompt-optimizer
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Para configurar claves API y contraseñas de acceso, pase variables de entorno:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;6
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;7
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;docker run -d -p 8081:80 &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  -e &lt;span class=&#34;nv&#34;&gt;VITE_OPENAI_API_KEY&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;your_key &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  -e &lt;span class=&#34;nv&#34;&gt;ACCESS_USERNAME&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;your_username &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  -e &lt;span class=&#34;nv&#34;&gt;ACCESS_PASSWORD&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;your_password &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  --restart unless-stopped &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  --name prompt-optimizer &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  linshen/prompt-optimizer
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Si Docker Hub es lento en China, el proyecto también proporciona una dirección de imagen de Alibaba Cloud en el README.&lt;/p&gt;
&lt;h2 id=&#34;qué-permite-mcp&#34;&gt;Qué permite MCP
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;Prompt Optimizer&lt;/code&gt; admite el protocolo de contexto modelo o MCP.&lt;/p&gt;
&lt;p&gt;Cuando se ejecuta a través de Docker, el servicio MCP puede iniciarse junto con la aplicación web y se puede acceder a él a través de la ruta &lt;code&gt;/mcp&lt;/code&gt;. Esto lo convierte de una herramienta web en algo a lo que pueden acceder aplicaciones compatibles con MCP, como Claude Desktop.&lt;/p&gt;
&lt;p&gt;El archivo README enumera estas herramientas MCP:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;optimize-user-prompt&lt;/code&gt;: optimiza las indicaciones del usuario&lt;/li&gt;
&lt;li&gt;&lt;code&gt;optimize-system-prompt&lt;/code&gt;: optimiza las indicaciones del sistema&lt;/li&gt;
&lt;li&gt;&lt;code&gt;iterate-prompt&lt;/code&gt;: realiza una iteración específica en un mensaje existente
Estas interfaces son muy adecuadas para los flujos de trabajo de IA. Por ejemplo, al escribir un mensaje de tarea compleja, un cliente compatible con MCP puede llamar a la herramienta de optimización de mensajes directamente en lugar de requerir que abra una página web y copie el texto manualmente.&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;diferencia-con-las-herramientas-de-chat-normales&#34;&gt;Diferencia con las herramientas de chat normales
&lt;/h2&gt;&lt;p&gt;Las herramientas de chat normales también pueden ayudar a reescribir las indicaciones, pero normalmente carecen de varias partes:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Guardar y comparar múltiples versiones es inconveniente&lt;/li&gt;
&lt;li&gt;Probar varios modelos a la vez es inconveniente&lt;/li&gt;
&lt;li&gt;Convertir variables en plantillas es un inconveniente&lt;/li&gt;
&lt;li&gt;La validación de conversaciones de varios turnos es inconveniente&lt;/li&gt;
&lt;li&gt;La integración a través de MCP o autohospedaje es inconveniente&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;El valor de &amp;ldquo;Prompt Optimizer&amp;rdquo; es que convierte la optimización rápida en un proceso repetible. No solo te ofrece una versión que “parece más completa”; le permite seguir ajustando las indicaciones en torno a resultados reales.&lt;/p&gt;
&lt;h2 id=&#34;quién-debería-usarlo&#34;&gt;¿Quién debería usarlo?
&lt;/h2&gt;&lt;p&gt;Este proyecto merece atención si:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;A menudo escribe mensajes del sistema.&lt;/li&gt;
&lt;li&gt;Diseñar roles y formatos de salida para aplicaciones de IA.&lt;/li&gt;
&lt;li&gt;Necesidad de comparar resultados de diferentes modelos.&lt;/li&gt;
&lt;li&gt;Quiere convertir indicaciones en plantillas reutilizables&lt;/li&gt;
&lt;li&gt;Necesidad de probar el diálogo de varios turnos o las llamadas a herramientas.&lt;/li&gt;
&lt;li&gt;Quiere conectar la optimización rápida a un flujo de trabajo MCP&lt;/li&gt;
&lt;li&gt;Quiere implementar una herramienta de aviso localmente o dentro de una intranet.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Si sólo ocasionalmente le haces una pregunta sencilla a AI, una página de chat normal es suficiente. Esta herramienta es mejor para las personas que tratan las indicaciones como activos mantenibles.&lt;/p&gt;
&lt;h2 id=&#34;notas-de-uso&#34;&gt;Notas de uso
&lt;/h2&gt;&lt;p&gt;En primer lugar, no trate los resultados de la optimización como absolutamente correctos.&lt;/p&gt;
&lt;p&gt;Las herramientas de optimización rápidas pueden mejorar la calidad de la expresión, pero no pueden garantizar que un modelo nunca se malinterprete. Las tareas importantes aún necesitan casos de prueba, revisión manual y comparación de versiones.&lt;/p&gt;
&lt;p&gt;En segundo lugar, no se limite a perseguir la longitud.&lt;/p&gt;
&lt;p&gt;Un buen mensaje no es necesariamente más largo. Debería expresar más claramente los objetivos, los límites, los formatos de entrada y salida y los criterios de evaluación. La acumulación de reglas sin sentido puede hacer que el modelo no entienda el punto.&lt;/p&gt;
&lt;p&gt;En tercer lugar, ajuste las indicaciones por modelo.&lt;/p&gt;
&lt;p&gt;Los diferentes modelos responden de manera diferente a la configuración de roles, restricciones de formato, pasos de razonamiento y ejemplos. Un mensaje que funciona bien en un modelo grande puede no ser adecuado para un modelo más pequeño. Las pruebas multimodelo son una de las razones por las que esta herramienta es útil.&lt;/p&gt;
&lt;p&gt;Cuarto, considere las claves y el control de acceso al implementar.&lt;/p&gt;
&lt;p&gt;Si lo implementa públicamente, configure una contraseña de acceso y maneje las claves API con cuidado. El proyecto soporta el control de acceso a través de variables de entorno; no escriba configuraciones confidenciales directamente en repositorios públicos.&lt;/p&gt;
&lt;h2 id=&#34;referencia&#34;&gt;Referencia
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://github.com/linshenkx/prompt-optimizer&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;linshenkx/prompt-optimizer&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;pensamiento-final&#34;&gt;Pensamiento final
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;Prompt Optimizer&lt;/code&gt; es útil para convertir mensajes de &amp;ldquo;un párrafo temporal que escribí a mano&amp;rdquo; en &amp;ldquo;un activo de trabajo que se puede probar, comparar e iterar&amp;rdquo;.&lt;/p&gt;
&lt;p&gt;Cuando comienzas a mantener mensajes en múltiples modelos, escenarios y versiones, este tipo de herramienta es más conveniente que una ventana de chat normal.&lt;/p&gt;
</description>
        </item>
        <item>
        <title>Google LangExtract: extraiga datos estructurados de texto largo con LLM</title>
        <link>https://www.knightli.com/es/2026/05/01/google-langextract-llm-structured-data-extraction/</link>
        <pubDate>Fri, 01 May 2026 02:58:21 +0800</pubDate>
        
        <guid>https://www.knightli.com/es/2026/05/01/google-langextract-llm-structured-data-extraction/</guid>
        <description>&lt;p&gt;&lt;code&gt;LangExtract&lt;/code&gt; es una biblioteca Python de código abierto de Google para extraer información estructurada de texto no estructurado.&lt;/p&gt;
&lt;p&gt;Su caso de uso es sencillo: proporcione un fragmento de texto, un mensaje y algunos ejemplos, luego deje que un modelo de lenguaje grande extraiga campos de acuerdo con su definición y organice el resultado en datos que puedan procesarse.&lt;/p&gt;
&lt;p&gt;A diferencia de simplemente pedirle a un modelo que resuma algo, &amp;ldquo;LangExtract&amp;rdquo; se centra en tres cosas:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Extraer información en una estructura fija.&lt;/li&gt;
&lt;li&gt;Preservar la relación entre los resultados extraídos y sus ubicaciones de origen.&lt;/li&gt;
&lt;li&gt;Soporte de documentos largos e inspección visual.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Si a menudo necesita extraer entidades, eventos, relaciones o atributos de informes, documentos, notas médicas, contratos, registros o páginas web, este tipo de herramienta es más flexible que las expresiones regulares escritas a mano y más fácil de conectar a flujos de trabajo de datos posteriores que las simples preguntas estilo chat.&lt;/p&gt;
&lt;h2 id=&#34;qué-problema-resuelve&#34;&gt;¿Qué problema resuelve?
&lt;/h2&gt;&lt;p&gt;Muchas tareas de extracción de texto parecen simples, pero resultan problemáticas en la práctica.&lt;/p&gt;
&lt;p&gt;Por ejemplo, es posible que desee extraer:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Personas, organizaciones y ubicaciones.&lt;/li&gt;
&lt;li&gt;Eventos, horarios y participantes.&lt;/li&gt;
&lt;li&gt;Medicamentos, dosis y reacciones adversas.&lt;/li&gt;
&lt;li&gt;Modelos, parámetros y precios de productos.&lt;/li&gt;
&lt;li&gt;Cláusulas, obligaciones y plazos del contrato.&lt;/li&gt;
&lt;li&gt;Tipos de errores y contexto de los registros.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Si el formato es fijo, pueden funcionar las expresiones regulares o los analizadores tradicionales.&lt;br&gt;
Pero una vez que el texto se vuelve más natural, las reglas rápidamente se complican.&lt;/p&gt;
&lt;p&gt;Los modelos de lenguaje grandes son buenos para comprender el lenguaje natural, pero pedirle directamente a un modelo que lo &amp;ldquo;extraiga&amp;rdquo; a menudo causa varios problemas:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;El formato de salida es inestable.&lt;/li&gt;
&lt;li&gt;No está claro de dónde proviene la información en el texto fuente.&lt;/li&gt;
&lt;li&gt;Es fácil pasar por alto los documentos largos&lt;/li&gt;
&lt;li&gt;El procesamiento por lotes es difícil&lt;/li&gt;
&lt;li&gt;Los resultados son incómodos de revisar manualmente&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;code&gt;LangExtract&lt;/code&gt; aborda esta capa del problema: integra la comprensión de LLM en un flujo de trabajo de extracción más controlable.&lt;/p&gt;
&lt;h2 id=&#34;características-clave-de-langextract&#34;&gt;Características clave de LangExtract
&lt;/h2&gt;&lt;h3 id=&#34;1-utilice-ejemplos-para-restringir-el-formato-de-extracción&#34;&gt;1. Utilice ejemplos para restringir el formato de extracción
&lt;/h3&gt;&lt;p&gt;&lt;code&gt;LangExtract&lt;/code&gt; no se basa en un mensaje vago de una sola línea. En cambio, utiliza indicaciones y ejemplos para decirle al modelo:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Qué extraer&lt;/li&gt;
&lt;li&gt;Cómo se llama cada campo&lt;/li&gt;
&lt;li&gt;Cómo se debe llenar cada campo&lt;/li&gt;
&lt;li&gt;Qué hacer cuando la información es incierta&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Este enfoque de pocas tomas funciona bien para la extracción de información.&lt;br&gt;
Cuanto más se acerquen sus ejemplos a los datos reales, más estable se volverá la salida estructurada del modelo.&lt;/p&gt;
&lt;h3 id=&#34;2-los-resultados-extraídos-pueden-vincularse-a-la-fuente&#34;&gt;2. Los resultados extraídos pueden vincularse a la fuente
&lt;/h3&gt;&lt;p&gt;El peor tipo de resultado de extracción es el que parece correcto pero no se puede rastrear.&lt;/p&gt;
&lt;p&gt;Uno de los puntos importantes de &amp;ldquo;LangExtract&amp;rdquo; es alinear los resultados extraídos con las ubicaciones de origen. Cuando revise más tarde, no solo verá un resultado JSON; también puedes volver al texto original y ver de dónde vino la información.&lt;/p&gt;
&lt;p&gt;Esto es importante en escenarios que requieren revisión, como textos médicos, textos legales, material de investigación y documentos comerciales internos.&lt;/p&gt;
&lt;h3 id=&#34;3-soporte-para-documentos-largos&#34;&gt;3. Soporte para documentos largos
&lt;/h3&gt;&lt;p&gt;La extracción de documentos largos a menudo se topa con límites de ventana de contexto, resultados perdidos y resultados duplicados.&lt;/p&gt;
&lt;p&gt;&lt;code&gt;LangExtract&lt;/code&gt; proporciona un flujo de trabajo para texto largo: divide el documento, procesa fragmentos en paralelo y luego organiza los resultados extraídos.
Esto lo hace más adecuado para informes completos, artículos, páginas web largas y documentos masivos, en lugar de solo fragmentos cortos.&lt;/p&gt;
&lt;h3 id=&#34;4-inspección-visual&#34;&gt;4. Inspección visual
&lt;/h3&gt;&lt;p&gt;Si los resultados de la extracción solo están disponibles como JSON, es fácil pasar por alto los problemas.&lt;/p&gt;
&lt;p&gt;&lt;code&gt;LangExtract&lt;/code&gt; admite la visualización de resultados extraídos, lo que facilita ver qué extrajo el modelo y de dónde proviene.&lt;br&gt;
Esto es útil para ajustar indicaciones, comprobar extracciones omitidas y encontrar falsos positivos.&lt;/p&gt;
&lt;h2 id=&#34;cuándo-debería-usarlo&#34;&gt;¿Cuándo debería usarlo?
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;LangExtract&lt;/code&gt; es adecuado cuando:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Es necesario extraer campos estructurados del texto en lenguaje natural.&lt;/li&gt;
&lt;li&gt;El formato del texto no está completamente arreglado.&lt;/li&gt;
&lt;li&gt;Debes preservar la relación entre los resultados extraídos y el texto fuente.&lt;/li&gt;
&lt;li&gt;Necesita procesar documentos más largos.&lt;/li&gt;
&lt;li&gt;Los resultados requieren revisión humana&lt;/li&gt;
&lt;li&gt;El resultado se incluirá posteriormente en tablas, bases de datos o flujos de trabajo de análisis de datos.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Los ejemplos típicos incluyen:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Extracción de síntomas, medicamentos, dosis y reacciones del texto médico.&lt;/li&gt;
&lt;li&gt;Extracción de partes, obligaciones, montos y plazos de los contratos.&lt;/li&gt;
&lt;li&gt;Extraer temas, métodos y conclusiones de los artículos.&lt;/li&gt;
&lt;li&gt;Extracción de parámetros de especificación de documentos de producto.&lt;/li&gt;
&lt;li&gt;Extracción de tipos de problemas y resoluciones de registros de soporte.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Si sólo necesita un resumen temporal de un breve fragmento de texto, un modelo de chat normal es suficiente.&lt;br&gt;
Si desea convertir texto en datos que puedan procesarse más adelante, &lt;code&gt;LangExtract&lt;/code&gt; es la mejor opción.&lt;/p&gt;
&lt;h2 id=&#34;instalación-básica&#34;&gt;Instalación básica
&lt;/h2&gt;&lt;p&gt;El proyecto admite la instalación a través de &lt;code&gt;pip&lt;/code&gt;:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;pip install langextract
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;También puedes instalarlo desde la fuente:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;git clone https://github.com/google/langextract.git
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;cd&lt;/span&gt; langextract
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;pip install -e .
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Si desea utilizar una API modelo, configure la clave API para el proveedor del modelo correspondiente.&lt;br&gt;
La documentación del proyecto se centra en el uso de Gemini y también puede conectarse a otros proveedores de modelos a través de adaptadores.&lt;/p&gt;
&lt;h2 id=&#34;flujo-de-uso-básico&#34;&gt;Flujo de uso básico
&lt;/h2&gt;&lt;p&gt;Un flujo de trabajo típico se ve así:&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;Prepara el texto fuente.&lt;/li&gt;
&lt;li&gt;Describa claramente el objetivo de extracción.&lt;/li&gt;
&lt;li&gt;Proporcione algunos ejemplos&lt;/li&gt;
&lt;li&gt;Llame a &lt;code&gt;LangExtract&lt;/code&gt; para realizar la extracción.&lt;/li&gt;
&lt;li&gt;Inspeccionar el resultado estructurado.&lt;/li&gt;
&lt;li&gt;Genere una página de visualización para revisarla si es necesario.&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;El segundo y tercer paso son los más importantes.&lt;/p&gt;
&lt;p&gt;El mensaje debe describir claramente la tarea, por ejemplo:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Extraer sólo información explícitamente presente en el texto.&lt;/li&gt;
&lt;li&gt;No completes hechos faltantes de sentido común.&lt;/li&gt;
&lt;li&gt;Deje los campos vacíos cuando falte información&lt;/li&gt;
&lt;li&gt;Mantener la misma estructura de campos para el mismo tipo de entidad.&lt;/li&gt;
&lt;li&gt;Conservar fragmentos de código fuente o posiciones en la salida&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Los ejemplos deben ser lo más parecidos posible a las entradas reales.&lt;br&gt;
Si el texto real tiene ruido, abreviaturas, saltos de línea o residuos de tabla, los ejemplos deberían reflejarlo.&lt;/p&gt;
&lt;h2 id=&#34;cosas-a-tener-en-cuenta&#34;&gt;Cosas a tener en cuenta
&lt;/h2&gt;&lt;p&gt;En primer lugar, no amplíe demasiado la tarea de extracción.&lt;/p&gt;
&lt;p&gt;&amp;ldquo;Extraer información útil&amp;rdquo; es demasiado vago.&lt;br&gt;
Una mejor instrucción sería &amp;ldquo;extraer el nombre del medicamento, la dosis, la frecuencia y las reacciones adversas&amp;rdquo;.&lt;/p&gt;
&lt;p&gt;En segundo lugar, no confíe plenamente en los resultados del modelo.&lt;/p&gt;
&lt;p&gt;&lt;code&gt;LangExtract&lt;/code&gt; puede alinear los resultados con el texto fuente, pero eso no significa que el modelo nunca omitirá o extraerá incorrectamente información. Los escenarios importantes aún requieren controles de muestreo o revisión humana.&lt;/p&gt;
&lt;p&gt;En tercer lugar, los ejemplos son más útiles que las explicaciones largas.&lt;/p&gt;
&lt;p&gt;En las tareas de extracción de información, los modelos suelen basarse más en ejemplos para comprender el formato de salida.&lt;br&gt;
En lugar de escribir un conjunto de reglas largas y abstractas, proporcione algunos ejemplos de alta calidad.
Cuarto, preste atención al costo y la velocidad para documentos largos.&lt;/p&gt;
&lt;p&gt;La división de documentos largos, la extracción paralela y las llamadas de modelos tienen costos. Antes del procesamiento por lotes, utilice un pequeño conjunto de muestra para ajustar la estructura de campos y mensajes.&lt;/p&gt;
&lt;h2 id=&#34;en-qué-se-diferencia-de-regex-o-pnl-tradicional&#34;&gt;¿En qué se diferencia de Regex o PNL tradicional?
&lt;/h2&gt;&lt;p&gt;Las expresiones regulares son buenas para formatos de texto estables y bien definidos.&lt;/p&gt;
&lt;p&gt;Los canales de PNL tradicionales funcionan bien cuando los límites de las tareas son claros y el modelo o diccionario ya está preparado.&lt;/p&gt;
&lt;p&gt;&lt;code&gt;LangExtract&lt;/code&gt; es mejor para texto cuyo formato es menos fijo pero cuyo significado es claro.&lt;br&gt;
No requiere que escribas una regla para cada expresión posible; en cambio, el LLM aprende el objetivo de extracción a partir de ejemplos.&lt;/p&gt;
&lt;p&gt;Pero no es un reemplazo completo de las expresiones regulares:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Para texto de formato fijo, las expresiones regulares son más económicas y estables.&lt;/li&gt;
&lt;li&gt;Para escenarios de alto riesgo, aún se requiere validación y revisión.&lt;/li&gt;
&lt;li&gt;Para el procesamiento por lotes a gran escala, el costo de la llamada al modelo es importante&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Un enfoque práctico es manejar las partes con reglas claras con código y usar &lt;code&gt;LangExtract&lt;/code&gt; para las partes con más variación semántica.&lt;/p&gt;
&lt;h2 id=&#34;para-quién-es&#34;&gt;¿Para quién es?
&lt;/h2&gt;&lt;p&gt;Es posible que desee consultar &lt;code&gt;LangExtract&lt;/code&gt; si está realizando alguna de las siguientes acciones:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Convertir texto largo en tablas.&lt;/li&gt;
&lt;li&gt;Extracción de entidades y relaciones de documentos.&lt;/li&gt;
&lt;li&gt;Limpiar datos antes de ponerlos en una base de conocimientos.&lt;/li&gt;
&lt;li&gt;Extracción de campos del texto comercial.&lt;/li&gt;
&lt;li&gt;Construcción de un prototipo de extracción de información impulsado por LLM.&lt;/li&gt;
&lt;li&gt;Preservar evidencia entre los resultados extraídos y el texto fuente.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;No es una herramienta de tipo &amp;ldquo;haga clic una vez y comprenda cada documento&amp;rdquo;. Es más como una biblioteca para diseñar un flujo de trabajo de extracción de LLM.&lt;/p&gt;
&lt;p&gt;Aún necesita diseñar campos, escribir ejemplos e inspeccionar los resultados.&lt;br&gt;
Pero en comparación con escribir manualmente llamadas de modelo, unir mensajes y analizar resultados cada vez, proporciona un marco de extracción más completo.&lt;/p&gt;
&lt;h2 id=&#34;referencia&#34;&gt;Referencia
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://github.com/google/langextract&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;google/langextract&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;pensamiento-final&#34;&gt;Pensamiento final
&lt;/h2&gt;&lt;p&gt;El valor de &lt;code&gt;LangExtract&lt;/code&gt; hace que &amp;ldquo;permitir que un LLM encuentre información en texto&amp;rdquo; sea más controlable.&lt;/p&gt;
&lt;p&gt;No es para resúmenes casuales. Es para tareas de extracción de información con requisitos de campos, evidencia y revisión.&lt;br&gt;
Si su trabajo convierte a menudo textos largos en datos estructurados, vale la pena intentarlo.&lt;/p&gt;
</description>
        </item>
        <item>
        <title>Por qué las API de LLM cobran por tokens: una guía clara sobre los costos de entrada, salida y contexto</title>
        <link>https://www.knightli.com/es/2026/04/25/llm-token-pricing-principles/</link>
        <pubDate>Sat, 25 Apr 2026 08:44:32 +0800</pubDate>
        
        <guid>https://www.knightli.com/es/2026/04/25/llm-token-pricing-principles/</guid>
        <description>&lt;p&gt;Una de las cosas más fáciles de confundir acerca de la facturación API de LLM es por qué casi todas las plataformas eventualmente se reducen a una unidad: &amp;ldquo;token&amp;rdquo;. La verdadera pregunta es simple: &lt;strong&gt;¿por qué los LLM cobran por token y por qué diferentes tokens pueden tener precios diferentes?&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;Para muchas personas que recién comienzan a usar API modelo, la parte más confusa no es la capacidad del modelo sino la factura. ¿Por qué el costo aumenta tan rápidamente incluso cuando solo hace unas pocas preguntas? ¿Por qué los insumos son más baratos que los productos? ¿Por qué la factura empieza a crecer mucho más rápido una vez que el contexto se alarga?&lt;/p&gt;
&lt;p&gt;Una forma sencilla de pensarlo es la siguiente: &lt;strong&gt;no estás pagando por &amp;ldquo;una respuesta&amp;rdquo;. Usted paga por la computación y el ancho de banda consumidos durante todo el proceso de inferencia.&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id=&#34;1-qué-es-una-ficha&#34;&gt;1. ¿Qué es una ficha?
&lt;/h2&gt;&lt;p&gt;En la facturación de LLM, un &amp;ldquo;token&amp;rdquo; no es un recuento de caracteres ni de palabras. Es la unidad que utiliza un modelo al procesar texto.&lt;/p&gt;
&lt;p&gt;Un token podría ser:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Un solo carácter chino&lt;/li&gt;
&lt;li&gt;Parte de una palabra inglesa.&lt;/li&gt;
&lt;li&gt;Un signo de puntuación&lt;/li&gt;
&lt;li&gt;Un breve fragmento de texto visto con frecuencia.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Es por eso que las plataformas API no suelen cobrar por frase ni por solicitud. Cobran según la cantidad de tokens que realmente lee y genera el modelo.&lt;br&gt;
Esto es mucho más razonable que cobrar por recuento de solicitudes, porque una solicitud puede contener 20 caracteres, mientras que otra puede incluir 200.000 tokens de contexto. El consumo de recursos no es ni de lejos el mismo.&lt;/p&gt;
&lt;h2 id=&#34;2-por-qué-los-insumos-y-los-productos-se-cotizan-por-separado&#34;&gt;2. ¿Por qué los insumos y los productos se cotizan por separado?
&lt;/h2&gt;&lt;p&gt;La mayoría de las API de modelos actuales dividen los precios en dos partes:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Precio del token de entrada&lt;/li&gt;
&lt;li&gt;Precio del token de salida&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Y en muchos casos, &lt;strong&gt;los tokens de salida cuestan más que los tokens de entrada&lt;/strong&gt;.&lt;/p&gt;
&lt;p&gt;La razón no es difícil de entender.&lt;/p&gt;
&lt;p&gt;Cuando un modelo procesa entradas, principalmente lee y codifica contenido existente. Pero cuando genera resultados, tiene que predecir el siguiente token, luego el siguiente, luego el siguiente. Esto no es sólo leer. Es un proceso continuo de inferencia y muestreo, que normalmente cuesta más cálculo.&lt;/p&gt;
&lt;p&gt;Puedes pensar en ello más o menos así:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Entrada: entrega de materiales al modelo.&lt;/li&gt;
&lt;li&gt;Resultado: pedirle al modelo que escriba la respuesta en el acto.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Escribir sobre el terreno suele costar más que leer los materiales una vez, por lo que es muy común que el precio de salida sea más alto.&lt;/p&gt;
&lt;h2 id=&#34;3-por-qué-el-contexto-prolongado-hace-que-sea-más-fácil-perder-el-control-de-los-costos&#34;&gt;3. Por qué el contexto prolongado hace que sea más fácil perder el control de los costos
&lt;/h2&gt;&lt;p&gt;Mucha gente piensa que sólo están añadiendo un poco más de información general, pero desde la perspectiva de la facturación modelo, el impacto suele ser mucho mayor de lo esperado.&lt;/p&gt;
&lt;p&gt;La razón es que &lt;strong&gt;cada llamada de modelo generalmente tiene que procesar nuevamente el contexto completo incluido en esa solicitud.&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;Eso significa que si su solicitud contiene actualmente:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Un mensaje del sistema&lt;/li&gt;
&lt;li&gt;Historial de conversaciones&lt;/li&gt;
&lt;li&gt;Valores de retorno de la herramienta&lt;/li&gt;
&lt;li&gt;trozos de documentos largos&lt;/li&gt;
&lt;li&gt;Archivos de código fuente&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;todo eso se destina a la facturación del token de entrada.&lt;/p&gt;
&lt;p&gt;Entonces, lo que realmente hace crecer los proyectos de ley no es a menudo la pregunta final en sí misma, sino la larga cadena de contexto que se le presenta.&lt;br&gt;
A medida que aumenta el número de turnos de conversación, se acumulan las llamadas a herramientas y se siguen enviando mensajes anteriores, el coste del token crece ronda tras ronda.&lt;/p&gt;
&lt;h2 id=&#34;4-por-qué-es-especialmente-probable-que-las-llamadas-a-herramientas-inflen-el-uso-de-tokens&#34;&gt;4. Por qué es especialmente probable que las llamadas a herramientas inflen el uso de tokens
&lt;/h2&gt;&lt;p&gt;En escenarios como agentes, asistentes de codificación y automatización del flujo de trabajo, el uso de tokens suele ser mucho mayor que en el chat normal.
La cuestión no es sólo que la modelo haya escrito un párrafo. Es que el flujo de trabajo sigue produciendo contenido como:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Leer archivos&lt;/li&gt;
&lt;li&gt;Inspeccionar registros&lt;/li&gt;
&lt;li&gt;Llamadas a API&lt;/li&gt;
&lt;li&gt;Volviendo JSON&lt;/li&gt;
&lt;li&gt;Introducir los resultados de la herramienta en el modelo.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Siempre que el resultado de cada llamada a la herramienta se inserte en la siguiente ronda de contexto, se convierte en una nueva fuente de tokens de entrada.&lt;/p&gt;
&lt;p&gt;Es por eso que muchos desarrolladores finalmente se dan cuenta de:&lt;br&gt;
&lt;strong&gt;El precio unitario del modelo no siempre es el verdadero problema. El flujo de trabajo en sí puede acumular el costo de los tokens capa por capa.&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;Por ejemplo, imagine un agente codificador haciendo lo siguiente:&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;Leer la estructura del proyecto.&lt;/li&gt;
&lt;li&gt;Abra varios archivos fuente.&lt;/li&gt;
&lt;li&gt;Ejecute un conjunto de pruebas&lt;/li&gt;
&lt;li&gt;Vuelva a introducir los registros de errores en el modelo.&lt;/li&gt;
&lt;li&gt;Leer más archivos relacionados&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;Cada paso puede hacer que las solicitudes posteriores tengan aún más contexto. Incluso si el precio unitario no cambia, la factura total puede aumentar rápidamente.&lt;/p&gt;
&lt;h2 id=&#34;5-por-qué-un-mismo-tipo-de-modelo-puede-tener-precios-muy-diferentes&#34;&gt;5. Por qué un mismo tipo de modelo puede tener precios muy diferentes
&lt;/h2&gt;&lt;p&gt;Las diferencias en los precios de los tokens entre modelos no se deben solo a que los proveedores quieran cobrar más. Suelen estar directamente relacionados con varios factores:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Tamaño del modelo&lt;/li&gt;
&lt;li&gt;Eficiencia de inferencia&lt;/li&gt;
&lt;li&gt;Longitud del contexto&lt;/li&gt;
&lt;li&gt;Costo de implementación&lt;/li&gt;
&lt;li&gt;Mercado objetivo&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Cuanto más grande es el modelo, más parámetros activos utiliza y más compleja es su ruta de inferencia, mayor suele ser el costo de generar un token.&lt;br&gt;
Si el modelo también admite un contexto ultralargo, un razonamiento más complejo o un mejor uso de las herramientas, la presión sobre la infraestructura aumenta aún más.&lt;/p&gt;
&lt;p&gt;Entonces, el precio en realidad cubre varios tipos de costos:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Recursos de GPU o acelerador&lt;/li&gt;
&lt;li&gt;Uso de VRAM&lt;/li&gt;
&lt;li&gt;Latencia de inferencia&lt;/li&gt;
&lt;li&gt;Estabilidad de la red y del servicio.&lt;/li&gt;
&lt;li&gt;Capacidad máxima de concurrencia&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Un modelo más barato no es necesariamente malo y un modelo más caro no es necesariamente la elección correcta para cada tarea. En muchos casos, la brecha de precios refleja cuánto costo de infraestructura requiere un cierto nivel de capacidad.&lt;/p&gt;
&lt;h2 id=&#34;6-por-qué-la-entrada-en-caché-es-más-barata&#34;&gt;6. Por qué la entrada en caché es más barata
&lt;/h2&gt;&lt;p&gt;Muchas plataformas de modelos ahora ofrecen características como:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;entrada en caché&lt;/li&gt;
&lt;li&gt;almacenamiento en caché rápido&lt;/li&gt;
&lt;li&gt;almacenamiento en caché de prefijos&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;La idea compartida detrás de ellos es simple: si una gran cantidad de insumos ya ha sido procesada una vez, no sigan calculándolos desde cero al precio completo.&lt;/p&gt;
&lt;p&gt;Por ejemplo, si envía repetidamente el mismo mensaje del sistema, las mismas instrucciones de herramienta o el mismo prefijo de documento largo, es posible que la plataforma pueda almacenar en caché parte de ese cálculo. Luego, aunque todavía se utilice el token de entrada, la parte almacenada en caché se puede facturar a una tarifa más baja.&lt;/p&gt;
&lt;p&gt;Esto también explica por qué muchas páginas de precios de API muestran tres o más niveles de precios:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Entrada estándar&lt;/li&gt;
&lt;li&gt;Entrada en caché&lt;/li&gt;
&lt;li&gt;Salida&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;La diferencia no es que el texto signifique cosas diferentes. Es que el cálculo subyacente puede ser reutilizable o no.&lt;/p&gt;
&lt;h2 id=&#34;7-por-qué-los-tokens-baratos-no-significan-automáticamente-un-costo-total-más-bajo&#34;&gt;7. Por qué los &amp;ldquo;tokens baratos&amp;rdquo; no significan automáticamente un costo total más bajo
&lt;/h2&gt;&lt;p&gt;Cuando la gente ve un modelo anunciado como &amp;ldquo;muy barato por millón de tokens&amp;rdquo;, el primer instinto suele ser que el coste total también debe ser menor. En realidad, no siempre.&lt;/p&gt;
&lt;p&gt;Esto se debe a que el costo total es aproximadamente:&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;precio unitario del token × volumen real del token&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;Y el volumen real de tokens puede verse amplificado por muchas cosas:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;Avisos demasiado largos.&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Historial de conversaciones que nunca se recorta&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Demasiada salida de herramienta retroalimentada&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Salida del modelo demasiado detallada&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Reintentos repetidos para la misma tarea
Por tanto, la factura real no está determinada únicamente por el precio. Suele estar determinado por:&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Precio unitario del modelo&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Longitud de entrada por ronda&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Longitud de salida por ronda&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Número de llamadas&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Diseño de flujo de trabajo&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Esta es también la razón por la que un &amp;ldquo;modelo de bajo costo&amp;rdquo; aún puede resultar costoso en los flujos de trabajo de algunos agentes. Es posible que necesite más rondas, más contexto suplementario y más ciclos de reintento.&lt;/p&gt;
&lt;h2 id=&#34;8-cómo-los-desarrolladores-deberían-estimar-el-costo-del-token&#34;&gt;8. Cómo los desarrolladores deberían estimar el costo del token
&lt;/h2&gt;&lt;p&gt;Si desea un mejor control presupuestario en un proyecto real, una forma sencilla de estimar el costo es:&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;Mida el promedio de tokens de entrada por solicitud&lt;/li&gt;
&lt;li&gt;Mida los tokens de producción promedio por solicitud&lt;/li&gt;
&lt;li&gt;Calcule cuántas rondas requiere una tarea completa&lt;/li&gt;
&lt;li&gt;Multiplica por el precio del modelo.&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;Por ejemplo:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;8k tokens&lt;/code&gt; de entrada por ronda&lt;/li&gt;
&lt;li&gt;&lt;code&gt;1k tokens&lt;/code&gt; de producción por ronda&lt;/li&gt;
&lt;li&gt;&lt;code&gt;10&lt;/code&gt; rondas para una tarea&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Entonces lo que realmente estás consumiendo no es &amp;ldquo;un intercambio de preguntas y respuestas&amp;rdquo;, sino:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Aproximadamente &amp;ldquo;80.000 tokens&amp;rdquo; de entrada&lt;/li&gt;
&lt;li&gt;Aproximadamente &amp;ldquo;10.000 tokens&amp;rdquo; de producción&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Y si se siguen agregando registros, resultados de herramientas y contenidos de archivos a lo largo del camino, el total crece aún más.&lt;/p&gt;
&lt;p&gt;Por eso la planificación presupuestaria no debería centrarse únicamente en una única ronda. Debería observar &lt;strong&gt;cuántos tokens consumirá un ciclo de tarea completo de principio a fin.&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id=&#34;9-cómo-controlar-la-factura-en-la-práctica&#34;&gt;9. Cómo controlar la factura en la práctica.
&lt;/h2&gt;&lt;p&gt;Si ya utiliza API o agentes, los siguientes métodos suelen ser los más eficaces:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Acorte el mensaje del sistema y elimine las palabras repetidas&lt;/li&gt;
&lt;li&gt;Recortar el historial de conversaciones antiguas con regularidad&lt;/li&gt;
&lt;li&gt;Mantenga solo los campos necesarios de los resultados de la herramienta&lt;/li&gt;
&lt;li&gt;Recuperar primero y luego enviar solo las partes relevantes de documentos extensos&lt;/li&gt;
&lt;li&gt;Limite la longitud de salida y evite la expansión ilimitada&lt;/li&gt;
&lt;li&gt;Utilice modelos caros para tareas de alto valor y modelos más baratos para tareas de menor valor&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;En muchos casos, la mejor manera de ahorrar dinero es no cambiar a ciegas a un modelo más económico. Primero se trata de eliminar el consumo innecesario de tokens del flujo de trabajo.&lt;/p&gt;
&lt;h2 id=&#34;10-cómo-pensar-en-todo-esto&#34;&gt;10. Cómo pensar en todo esto
&lt;/h2&gt;&lt;p&gt;Al final del día, el precio de los tokens es una forma de cobrar por cuánto tuvo que leer, inferir y escribir el modelo.&lt;/p&gt;
&lt;p&gt;No es como los precios de software tradicionales, donde la facturación por cuenta, por solicitud o mensual es suficiente para describir el uso de recursos. Una llamada de modelo es un proceso de cálculo dinámico. La cantidad de contexto que envía, las herramientas que invoca y la longitud del resultado que solicita afectan directamente el costo.&lt;/p&gt;
&lt;p&gt;Entonces lo más importante es no memorizar tablas de precios. Está construyendo la intuición correcta:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;El contexto prolongado aumenta el costo de los insumos&lt;/li&gt;
&lt;li&gt;La producción prolongada aumenta el costo de generación.&lt;/li&gt;
&lt;li&gt;Las cadenas de herramientas amplifican el uso total de tokens&lt;/li&gt;
&lt;li&gt;El almacenamiento en caché y el diseño del flujo de trabajo pueden cambiar significativamente la factura.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Una vez que esos puntos estén claros, la estructura de precios de la mayoría de las API de LLM se vuelve mucho más fácil de entender.&lt;/p&gt;
</description>
        </item>
        <item>
        <title>Lanzamiento de la vista previa de DeepSeek-V4: contexto de 1M, dos modelos y notas de migración de API</title>
        <link>https://www.knightli.com/es/2026/04/24/deepseek-v4-preview-release/</link>
        <pubDate>Fri, 24 Apr 2026 22:39:46 +0800</pubDate>
        
        <guid>https://www.knightli.com/es/2026/04/24/deepseek-v4-preview-release/</guid>
        <description>&lt;p&gt;DeepSeek lanzó &lt;a class=&#34;link&#34; href=&#34;https://api-docs.deepseek.com/news/news260424&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Lanzamiento preliminar de DeepSeek V4&lt;/a&gt; el &lt;code&gt;2026-04-24&lt;/code&gt;. Según la página de anuncio oficial, la actualización se centra en algunos temas muy claros: &amp;ldquo;1M context&amp;rdquo;, una línea de dos modelos con &amp;ldquo;V4-Pro&amp;rdquo; y &amp;ldquo;V4-Flash&amp;rdquo;, optimización dedicada para escenarios de agentes y migración de modelos del lado API.&lt;/p&gt;
&lt;p&gt;Si reducimos el comunicado a una frase, la señal principal es la siguiente: DeepSeek no sólo está intentando crear un modelo más potente. Está impulsando el contexto ultralargo y las capacidades de los agentes hacia algo que esté listo para su implementación práctica.&lt;/p&gt;
&lt;h2 id=&#34;1-lo-que-se-lanzó-esta-vez&#34;&gt;1. Lo que se lanzó esta vez
&lt;/h2&gt;&lt;p&gt;Según la página oficial, &lt;code&gt;DeepSeek-V4 Preview&lt;/code&gt; incluye principalmente dos líneas de productos:&lt;/p&gt;
&lt;p&gt;-&lt;code&gt;DeepSeek-V4-Pro&lt;/code&gt;
-&lt;code&gt;DeepSeek-V4-Flash&lt;/code&gt;&lt;/p&gt;
&lt;p&gt;Las descripciones oficiales también son muy directas:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;DeepSeek-V4-Pro&lt;/code&gt;: &lt;code&gt;1.6T total / 49B parámetros activos&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;DeepSeek-V4-Flash&lt;/code&gt;: &lt;code&gt;284B en total / 13B de parámetros activos&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;El nombre ya deja clara la estrategia. Esta no es una actualización de un solo modelo. DeepSeek está lanzando un modelo de gama alta y un modelo más rentable al mismo tiempo.&lt;/p&gt;
&lt;p&gt;&amp;ldquo;V4-Pro&amp;rdquo; está posicionado alrededor del techo de rendimiento, y DeepSeek dice que puede competir con los mejores modelos de código cerrado del mundo. &lt;code&gt;V4-Flash&lt;/code&gt;, por el contrario, se posiciona en torno a la velocidad, la eficiencia y el menor costo, lo que lo hace más adecuado para cargas de trabajo que se preocupan más por la latencia y el precio de API.&lt;/p&gt;
&lt;h2 id=&#34;2-1m-contexto-es-el-título-más-visible&#34;&gt;2. &lt;code&gt;1M contexto&lt;/code&gt; es el título más visible
&lt;/h2&gt;&lt;p&gt;Una de las líneas más destacadas de la página oficial es: &lt;strong&gt;&amp;ldquo;Bienvenido a la era del contexto rentable de 1 millón de longitud&amp;rdquo;.&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;DeepSeek no se limita a decir que el modelo admite un contexto prolongado. Presenta &amp;ldquo;contexto 1M&amp;rdquo; como una capacidad predeterminada de esta generación. La página es explícita que:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;1M context&lt;/code&gt; es ahora el estándar predeterminado en todos los servicios oficiales de DeepSeek&lt;/li&gt;
&lt;li&gt;Tanto &lt;code&gt;V4-Pro&lt;/code&gt; como &lt;code&gt;V4-Flash&lt;/code&gt; admiten &lt;code&gt;contexto 1M&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;La importancia de esto no es sólo que puedas colocar más tokens. Afecta directamente a tareas como:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Comprender grandes bases de código&lt;/li&gt;
&lt;li&gt;Preguntas y respuestas de documentos extensos y síntesis de información.&lt;/li&gt;
&lt;li&gt;Flujos de trabajo de agentes de múltiples turnos&lt;/li&gt;
&lt;li&gt;Tareas complejas que abarcan múltiples archivos, herramientas y etapas.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Cuando la ventana de contexto es lo suficientemente grande, es menos probable que el modelo pierda el contexto a mitad del camino y vuelva a leer el material repetidamente. Esto es muy importante para la codificación agente y el trabajo de conocimiento complejo.&lt;/p&gt;
&lt;h2 id=&#34;3-qué-enfatiza-principalmente-v4-pro&#34;&gt;3. Qué enfatiza principalmente &lt;code&gt;V4-Pro&lt;/code&gt;
&lt;/h2&gt;&lt;p&gt;Según el texto de la página oficial, &amp;ldquo;DeepSeek-V4-Pro&amp;rdquo; se centra en tres cosas:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Capacidad de codificación agente&lt;/li&gt;
&lt;li&gt;conocimiento mundial&lt;/li&gt;
&lt;li&gt;Capacidad de razonamiento&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;La página dice que &amp;ldquo;V4-Pro&amp;rdquo; alcanza SOTA de código abierto en puntos de referencia de codificación agente. También afirma ser líder entre los modelos abiertos actuales en el conocimiento mundial, sólo por detrás de &amp;ldquo;Gemini-3.1-Pro&amp;rdquo;, y afirma que su rendimiento en matemáticas, &amp;ldquo;STEM&amp;rdquo; y codificación supera a los modelos abiertos actuales y rivaliza con los mejores modelos de código cerrado.&lt;/p&gt;
&lt;p&gt;En otras palabras, &amp;ldquo;V4-Pro&amp;rdquo; no se posiciona como un simple modelo de preguntas y respuestas. Está dirigido mucho más al razonamiento de alta dificultad, la codificación compleja y la ejecución de tareas a largo plazo.&lt;/p&gt;
&lt;h2 id=&#34;4-v4-flash-no-es-solo-una-versión-reducida&#34;&gt;4. &lt;code&gt;V4-Flash&lt;/code&gt; no es solo una versión reducida
&lt;/h2&gt;&lt;p&gt;Otro punto destacable es que DeepSeek no presenta &lt;code&gt;V4-Flash&lt;/code&gt; como modelo de gama baja. Más bien, subraya que el modelo ya es lo suficientemente sólido para muchas tareas prácticas.&lt;/p&gt;
&lt;p&gt;Según el anuncio, &lt;code&gt;V4-Flash&lt;/code&gt;:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Tiene una capacidad de razonamiento cercana a &amp;ldquo;V4-Pro&amp;rdquo;.&lt;/li&gt;
&lt;li&gt;Funciona a la par con &lt;code&gt;V4-Pro&lt;/code&gt; en tareas simples de agente&lt;/li&gt;
&lt;li&gt;Utiliza menos parámetros, responde más rápido y es más económico para el uso de API&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Eso significa que la alineación no es una estructura muy dividida de &amp;ldquo;un buque insignia, un nivel de entrada&amp;rdquo;. Está más cerca de:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;V4-Pro&lt;/code&gt;: optimización para un mayor rendimiento y un techo más resistente&lt;/li&gt;
&lt;li&gt;&lt;code&gt;V4-Flash&lt;/code&gt;: optimización para una menor latencia y una mejor rentabilidad&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Para los desarrolladores, esta suele ser una combinación más práctica, porque muchas tareas de producción no necesitan el modelo más sólido en teoría. Necesitan algo lo suficientemente fuerte, lo suficientemente rápido y lo suficientemente asequible.&lt;/p&gt;
&lt;h2 id=&#34;5-el-lanzamiento-pone-un-claro-énfasis-en-la-optimización-de-los-agentes&#34;&gt;5. El lanzamiento pone un claro énfasis en la optimización de los agentes.
&lt;/h2&gt;&lt;p&gt;Otra señal fuerte de la página de anuncios es que DeepSeek está impulsando activamente &amp;ldquo;V4&amp;rdquo; hacia casos de uso de agentes.&lt;/p&gt;
&lt;p&gt;La página dice que &amp;ldquo;DeepSeek-V4&amp;rdquo; se ha integrado perfectamente con varios agentes líderes de IA, incluidos:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Código Claude&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;OpenClaw&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Código Abierto&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;DeepSeek también dice que &amp;ldquo;V4&amp;rdquo; ya se está utilizando en sus flujos de trabajo de codificación agentes internos.&lt;/p&gt;
&lt;p&gt;Eso significa que el objetivo ya no se limita al chat o a la finalización ordinaria. El modelo se está posicionando para flujos de trabajo más largos: leer código, comprender la estructura, llamar a herramientas, generar resultados y conectar todo el proceso.&lt;/p&gt;
&lt;p&gt;Si ha estado prestando atención a los agentes de codificación recientemente, vale la pena señalarlo. Los proveedores de modelos ya no compiten sólo en base a puntos de referencia. También compiten sobre si el modelo realmente puede integrarse en flujos de trabajo reales.&lt;/p&gt;
&lt;h2 id=&#34;6-la-innovación-estructural-está-al-servicio-de-la-eficiencia-en-el-contexto-a-largo-plazo&#34;&gt;6. La innovación estructural está al servicio de la eficiencia en el contexto a largo plazo.
&lt;/h2&gt;&lt;p&gt;En el aspecto técnico, la página resume el trabajo estructural de este lanzamiento como:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;compresión por token&lt;/li&gt;
&lt;li&gt;&lt;code&gt;DSA (Atención escasa de DeepSeek)&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;La dirección es clara: hacer que el contexto largo sea más barato y más eficiente, al mismo tiempo que se reducen los costos de computación y memoria tanto como sea posible.&lt;/p&gt;
&lt;p&gt;La página del anuncio no entra en detalles técnicos completos, pero al menos sugiere que DeepSeek no depende únicamente del escalamiento por fuerza bruta para admitir ventanas más largas. También está realizando optimizaciones a nivel de arquitectura específicamente para la eficiencia en contextos prolongados.&lt;/p&gt;
&lt;p&gt;Para los usuarios reales, eso a menudo es más importante que simplemente ver un número de contexto mayor, porque la usabilidad real depende de algo más que si &amp;ldquo;1M&amp;rdquo; está técnicamente disponible. También depende de:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Si la velocidad sigue siendo aceptable&lt;/li&gt;
&lt;li&gt;Si el costo sigue siendo aceptable&lt;/li&gt;
&lt;li&gt;Si las tareas de contexto largo permanecen estables en la práctica&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;7-la-api-ya-está-disponible-pero-la-migración-del-modelo-es-importante&#34;&gt;7. La API ya está disponible, pero la migración del modelo es importante
&lt;/h2&gt;&lt;p&gt;La página oficial indica claramente que la API está disponible hoy.&lt;/p&gt;
&lt;p&gt;La ruta de migración también es relativamente sencilla:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Mantener la misma &lt;code&gt;base_url&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;Cambie el nombre del modelo a &lt;code&gt;deepseek-v4-pro&lt;/code&gt; o &lt;code&gt;deepseek-v4-flash&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;La página también dice que ambos modelos admiten:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Contexto 1M&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;Modos duales &amp;ldquo;Pensamiento / No pensamiento&amp;rdquo;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Compleciones de Chat OpenAI&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;API antrópicas&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Eso significa que si ya utiliza la API de DeepSeek, la ruta de actualización no es especialmente difícil. El trabajo principal es actualizar los nombres de los modelos y validar el comportamiento.&lt;/p&gt;
&lt;h2 id=&#34;8-el-calendario-de-jubilación-para-modelos-antiguos-es-explícito&#34;&gt;8. El calendario de jubilación para modelos antiguos es explícito.
&lt;/h2&gt;&lt;p&gt;Para los desarrolladores, uno de los detalles más importantes de la página es en realidad el aviso de retirada de modelos más antiguos.&lt;/p&gt;
&lt;p&gt;DeepSeek dice explícitamente:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;chat de búsqueda profunda&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;razonador de búsqueda profunda&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;quedará completamente retirado y será inaccesible después del &lt;strong&gt;24 de julio de 2026 a las 15:59 UTC&lt;/strong&gt;.
La página también señala que estos dos modelos están siendo encaminados actualmente a los modos de pensamiento y no pensamiento de &amp;ldquo;deepseek-v4-flash&amp;rdquo;.&lt;/p&gt;
&lt;p&gt;Eso significa que si su proyecto todavía hace referencia directa a &lt;code&gt;deepseek-chat&lt;/code&gt; o &lt;code&gt;deepseek-reasoner&lt;/code&gt;, ahora es el momento de planificar la migración en lugar de esperar hasta que se acerque la fecha de cierre formal.&lt;/p&gt;
&lt;h2 id=&#34;9-por-qué-vale-la-pena-leer-este-comunicado&#34;&gt;9. Por qué vale la pena leer este comunicado
&lt;/h2&gt;&lt;p&gt;Si comprimimos la actualización en algunas conclusiones principales, se ven así:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;DeepSeek está convirtiendo el &amp;ldquo;contexto 1M&amp;rdquo; de una característica premium a un estándar predeterminado&lt;/li&gt;
&lt;li&gt;La estrategia de dos modelos es más clara: uno apunta al techo de rendimiento, el otro apunta a la velocidad y la rentabilidad.&lt;/li&gt;
&lt;li&gt;La capacidad del agente se ha trasladado a un papel muy central.&lt;/li&gt;
&lt;li&gt;La ruta de actualización de API es relativamente directa, pero el cronograma de retiro del modelo antiguo necesita atención pronto.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Para los usuarios generales, el cambio más visible puede ser que los documentos largos, los contextos de código largos y los flujos de trabajo largos sean más fáciles de encajar en una sola sesión.&lt;br&gt;
Para los desarrolladores, el punto más importante es que si ya están creando agentes, asistentes de codificación, flujos de trabajo de conocimiento o canales de automatización complejos, esta generación está muy claramente diseñada para esos escenarios.&lt;/p&gt;
&lt;p&gt;Esta no es sólo una actualización rutinaria del modelo de DeepSeek. Se lee más como una declaración más clara de la próxima dirección de su producto: &lt;strong&gt;contexto ultralargo, optimización de agentes y preparación de API más práctica.&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id=&#34;enlaces-relacionados&#34;&gt;Enlaces relacionados
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;Página oficial de noticias de DeepSeek: &lt;a class=&#34;link&#34; href=&#34;https://api-docs.deepseek.com/news/news260424&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://api-docs.deepseek.com/news/news260424&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;Informe técnico: &lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;Pesos abiertos: &lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/collections/deepseek-ai/deepseek-v4&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://huggingface.co/collections/deepseek-ai/deepseek-v4&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>Explicación de la cuantificación de LLM: cómo elegir FP16, Q8, Q5, Q4 o Q2</title>
        <link>https://www.knightli.com/es/2026/04/05/llm-quantization-guide-fp16-q4-q2/</link>
        <pubDate>Sun, 05 Apr 2026 22:09:11 +0800</pubDate>
        
        <guid>https://www.knightli.com/es/2026/04/05/llm-quantization-guide-fp16-q4-q2/</guid>
        <description>&lt;p&gt;El objetivo principal de la cuantificación es simple: intercambiar una pequeña cantidad de precisión por un tamaño de modelo más pequeño, un menor uso de VRAM y una inferencia más rápida.&lt;br&gt;
Para la implementación local, elegir el formato de cuantificación correcto suele ser más importante que buscar un recuento de parámetros mayor.&lt;/p&gt;
&lt;h2 id=&#34;qué-es-la-cuantización&#34;&gt;¿Qué es la cuantización?
&lt;/h2&gt;&lt;p&gt;La cuantización significa comprimir los parámetros del modelo desde formatos de mayor precisión (como &amp;ldquo;FP16&amp;rdquo;) a formatos de bits más bajos (como &amp;ldquo;Q8&amp;rdquo; y &amp;ldquo;Q4&amp;rdquo;).&lt;/p&gt;
&lt;p&gt;Una analogía simple:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Modelo original: como una foto de alta calidad, clara pero grande.&lt;/li&gt;
&lt;li&gt;Modelo cuantificado: como una foto comprimida, ligeramente menos detallada pero más ligera y rápida.&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;formatos-de-cuantificación-comunes&#34;&gt;Formatos de cuantificación comunes
&lt;/h2&gt;&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;Cuantización&lt;/th&gt;
          &lt;th&gt;Precisión/Ancho de broca&lt;/th&gt;
          &lt;th&gt;Tamaño&lt;/th&gt;
          &lt;th&gt;Pérdida de calidad&lt;/th&gt;
          &lt;th&gt;Uso recomendado&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;FP16&lt;/td&gt;
          &lt;td&gt;flotante de 16 bits&lt;/td&gt;
          &lt;td&gt;Más grande&lt;/td&gt;
          &lt;td&gt;Casi ninguno&lt;/td&gt;
          &lt;td&gt;Investigación, evaluación, máxima calidad&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Q8_0&lt;/td&gt;
          &lt;td&gt;Entero de 8 bits&lt;/td&gt;
          &lt;td&gt;Más grande&lt;/td&gt;
          &lt;td&gt;Casi ninguno&lt;/td&gt;
          &lt;td&gt;PC de alta gama, calidad + rendimiento&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Q5_K_M&lt;/td&gt;
          &lt;td&gt;5 bits mixto&lt;/td&gt;
          &lt;td&gt;Medio&lt;/td&gt;
          &lt;td&gt;Ligero&lt;/td&gt;
          &lt;td&gt;Conductor diario, elección equilibrada&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Q4_K_M&lt;/td&gt;
          &lt;td&gt;Mixto de 4 bits&lt;/td&gt;
          &lt;td&gt;Más pequeño&lt;/td&gt;
          &lt;td&gt;Aceptable&lt;/td&gt;
          &lt;td&gt;Valor predeterminado general, valor fuerte&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Q3_K_M&lt;/td&gt;
          &lt;td&gt;Mezclado de 3 bits&lt;/td&gt;
          &lt;td&gt;Muy pequeño&lt;/td&gt;
          &lt;td&gt;Notable&lt;/td&gt;
          &lt;td&gt;Dispositivos de baja especificación, ejecutar primero&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Q2_K&lt;/td&gt;
          &lt;td&gt;Mixto de 2 bits&lt;/td&gt;
          &lt;td&gt;Más pequeño&lt;/td&gt;
          &lt;td&gt;Significativo&lt;/td&gt;
          &lt;td&gt;Límites extremos de recursos, respaldo&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id=&#34;reglas-de-denominación-de-cuantificación&#34;&gt;Reglas de denominación de cuantificación
&lt;/h2&gt;&lt;p&gt;Tome &lt;code&gt;gemma-4:4b-q4_k_m&lt;/code&gt; como ejemplo:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;gemma-4:4b&lt;/code&gt;: nombre del modelo y escala de parámetros.&lt;/li&gt;
&lt;li&gt;&lt;code&gt;q4&lt;/code&gt;: cuantificación de 4 bits.&lt;/li&gt;
&lt;li&gt;&lt;code&gt;k&lt;/code&gt;: K-quants (un método de cuantificación mejorado).&lt;/li&gt;
&lt;li&gt;&lt;code&gt;m&lt;/code&gt;: nivel medio (las opciones comunes también incluyen &lt;code&gt;s&lt;/code&gt;/small y &lt;code&gt;l&lt;/code&gt;/large).&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;selección-rápida-por-vram&#34;&gt;Selección rápida por VRAM
&lt;/h2&gt;&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;RAM/VRAM&lt;/th&gt;
          &lt;th&gt;Cuantización recomendada&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;4 GB&lt;/td&gt;
          &lt;td&gt;Q3_K_M / Q2_K&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;8 GB&lt;/td&gt;
          &lt;td&gt;Q4_K_M&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;16 GB&lt;/td&gt;
          &lt;td&gt;Q5_K_M / Q8_0&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;32GB+&lt;/td&gt;
          &lt;td&gt;FP16 / T8_0&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;Comience con una versión que se ejecute de manera estable en su máquina, luego avance con precisión paso a paso en lugar de saltar directamente al modelo más grande.&lt;/p&gt;
&lt;h2 id=&#34;consejos-prácticos&#34;&gt;Consejos prácticos
&lt;/h2&gt;&lt;ol&gt;
&lt;li&gt;Comience con &lt;code&gt;Q4_K_M&lt;/code&gt; de forma predeterminada y pruebe primero las tareas reales.&lt;/li&gt;
&lt;li&gt;Si la calidad de la respuesta no es suficiente, suba a &lt;code&gt;Q5_K_M&lt;/code&gt; o &lt;code&gt;Q8_0&lt;/code&gt;.&lt;/li&gt;
&lt;li&gt;Si la VRAM o la velocidad son el principal cuello de botella, baje a &lt;code&gt;Q3_K_M&lt;/code&gt;.&lt;/li&gt;
&lt;li&gt;Utilice el mismo conjunto de prueba cada vez que cambie de formato de cuantificación.&lt;/li&gt;
&lt;/ol&gt;
&lt;h2 id=&#34;conclusión&#34;&gt;Conclusión
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;Calidad primero: &lt;code&gt;FP16&lt;/code&gt; o &lt;code&gt;Q8_0&lt;/code&gt;.&lt;/li&gt;
&lt;li&gt;Saldo primero: &lt;code&gt;Q5_K_M&lt;/code&gt;.&lt;/li&gt;
&lt;li&gt;Valor predeterminado general: &lt;code&gt;Q4_K_M&lt;/code&gt;.&lt;/li&gt;
&lt;li&gt;Reserva de baja especificación: &lt;code&gt;Q3_K_M&lt;/code&gt; o &lt;code&gt;Q2_K&lt;/code&gt;.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;La clave no es &amp;ldquo;cuanto más grande, mejor&amp;rdquo;, sino &amp;ldquo;el resultado más estable y utilizable bajo los límites de su hardware&amp;rdquo;.&lt;/p&gt;
&lt;!-- enlaces-relacionados-con-ollama:inicio --&gt;
&lt;h2 id=&#34;publicaciones-relacionadas&#34;&gt;Publicaciones relacionadas
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;Comparación y selección de modelos Gemma 4&lt;/li&gt;
&lt;li&gt;Desinstalar completamente Ollama en Linux&lt;/li&gt;
&lt;li&gt;Ruta de almacenamiento y migración del modelo Ollama&lt;/li&gt;
&lt;li&gt;Cómo comprobar si Ollama usa GPU&lt;/li&gt;
&lt;/ul&gt;
&lt;!-- enlaces-relacionados-con-ollama:end --&gt;
</description>
        </item>
        
    </channel>
</rss>
