<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>Multimodal Models on KnightLi Blog</title>
        <link>https://www.knightli.com/es/tags/multimodal-models/</link>
        <description>Recent content in Multimodal Models on KnightLi Blog</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>es</language>
        <lastBuildDate>Fri, 01 May 2026 12:07:15 +0800</lastBuildDate><atom:link href="https://www.knightli.com/es/tags/multimodal-models/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>NVIDIA lanza Nemotron 3 Nano Omni: un modelo abierto de razonamiento omnimodal para agentes</title>
        <link>https://www.knightli.com/es/2026/05/01/nvidia-nemotron-3-nano-omni-multimodal-agents/</link>
        <pubDate>Fri, 01 May 2026 12:07:15 +0800</pubDate>
        
        <guid>https://www.knightli.com/es/2026/05/01/nvidia-nemotron-3-nano-omni-multimodal-agents/</guid>
        <description>&lt;p&gt;NVIDIA lanzó &lt;code&gt;Nemotron 3 Nano Omni&lt;/code&gt;, un modelo abierto de razonamiento omnimodal diseñado para flujos de AI Agents.
Su foco no es solo responder preguntas de texto, sino poner lenguaje, visión y audio en un mismo marco de razonamiento para trabajar con entradas más cercanas al trabajo real.&lt;/p&gt;
&lt;p&gt;Por posicionamiento, &lt;code&gt;Nemotron 3 Nano Omni&lt;/code&gt; parece un modelo base preparado para agentes. Puede entender información de pantallas, documentos, imágenes, voz y vídeo, y convertirla en resultados de razonamiento accionables.&lt;/p&gt;
&lt;h2 id=&#34;especificaciones-del-modelo&#34;&gt;Especificaciones del modelo
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;Nemotron 3 Nano Omni&lt;/code&gt; usa arquitectura MoE. NVIDIA lista estos puntos:&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;Item&lt;/th&gt;
          &lt;th&gt;Information&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;Model name&lt;/td&gt;
          &lt;td&gt;&lt;code&gt;Nemotron 3 Nano Omni&lt;/code&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Architecture&lt;/td&gt;
          &lt;td&gt;MoE&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Parameter scale&lt;/td&gt;
          &lt;td&gt;30B total / 3B active&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Modalities&lt;/td&gt;
          &lt;td&gt;Text, image, audio, video&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Context length&lt;/td&gt;
          &lt;td&gt;256K tokens&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;License&lt;/td&gt;
          &lt;td&gt;Apache 2.0&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Main deployment direction&lt;/td&gt;
          &lt;td&gt;AI Agents, multimodal reasoning, enterprise agents&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;Lo más llamativo es &lt;code&gt;30B-A3B&lt;/code&gt;: el modelo tiene unos 30B parámetros totales, pero activa alrededor de 3B por paso de inferencia. Es un equilibrio entre capacidad y coste.&lt;/p&gt;
&lt;p&gt;Pero &lt;code&gt;active params&lt;/code&gt; en MoE no significa que la VRAM pueda estimarse como si fuera solo un modelo de 3B. Hay que contar pesos de expertos, KV cache, módulos de visión y audio, contexto y sobrecarga del framework.&lt;/p&gt;
&lt;h2 id=&#34;no-resuelve-un-problema-de-una-sola-modalidad&#34;&gt;No resuelve un problema de una sola modalidad
&lt;/h2&gt;&lt;p&gt;Los LLM tradicionales procesan sobre todo texto. Los multimodales añaden imagen. &lt;code&gt;Nemotron 3 Nano Omni&lt;/code&gt; apunta a algo más amplio: entrada omnimodal, con texto, imágenes, audio y vídeo dentro de un razonamiento unificado.&lt;/p&gt;
&lt;p&gt;Esto importa para agentes porque las tareas reales suelen incluir:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;leer botones, tablas y ventanas en pantalla;&lt;/li&gt;
&lt;li&gt;analizar PDFs, capturas, gráficos y webs;&lt;/li&gt;
&lt;li&gt;escuchar instrucciones o reuniones;&lt;/li&gt;
&lt;li&gt;entender acciones y tiempos en vídeo;&lt;/li&gt;
&lt;li&gt;combinar esas señales para decidir el siguiente paso.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Si un modelo solo maneja una modalidad, el agente necesita mucho pegamento entre modelos especializados. Un modelo omnimodal reduce ese coste de integración.&lt;/p&gt;
&lt;h2 id=&#34;pensado-para-operación-de-ordenador-e-inteligencia-documental&#34;&gt;Pensado para operación de ordenador e inteligencia documental
&lt;/h2&gt;&lt;p&gt;NVIDIA menciona explícitamente tareas de operación de ordenador. Estas requieren entender interfaces:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;qué controles aparecen en pantalla;&lt;/li&gt;
&lt;li&gt;en qué estado está la ventana actual;&lt;/li&gt;
&lt;li&gt;qué botón o menú debe usarse;&lt;/li&gt;
&lt;li&gt;qué significan tablas, diálogos y campos de entrada.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Esto es difícil de evitar cuando los agentes entran en despliegues reales. Para operar software de oficina, navegadores, backends empresariales o herramientas de desarrollo, el agente debe entender la interfaz, no solo leer documentación.&lt;/p&gt;
&lt;p&gt;La inteligencia documental tiene una lógica parecida. Los materiales empresariales mezclan texto, tablas, imágenes, páginas escaneadas y gráficos. Un modelo omnimodal puede poner todo eso en un mismo contexto para revisión de contratos, análisis de informes, facturas, QA de conocimiento y automatización de procesos.&lt;/p&gt;
&lt;h2 id=&#34;audio-y-vídeo-acercan-los-agentes-a-escenarios-reales&#34;&gt;Audio y vídeo acercan los agentes a escenarios reales
&lt;/h2&gt;&lt;p&gt;Las entradas de audio y vídeo amplían mucho los usos:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;resúmenes de reuniones;&lt;/li&gt;
&lt;li&gt;análisis de llamadas de atención al cliente;&lt;/li&gt;
&lt;li&gt;comprensión de comandos de voz;&lt;/li&gt;
&lt;li&gt;organización de contenido educativo;&lt;/li&gt;
&lt;li&gt;análisis de vídeos instructivos;&lt;/li&gt;
&lt;li&gt;inspección de seguridad o industrial;&lt;/li&gt;
&lt;li&gt;revisión de grabaciones de pantalla;&lt;/li&gt;
&lt;li&gt;razonamiento temporal en tareas de varios pasos.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Si estas tareas dependen solo de transcripciones, se pierde información visual y temporal. Un modelo omnimodal puede combinar voz, fotogramas y texto para dar al agente una visión más completa.&lt;/p&gt;
&lt;h2 id=&#34;despliegue-y-ecosistema&#34;&gt;Despliegue y ecosistema
&lt;/h2&gt;&lt;p&gt;NVIDIA sitúa &lt;code&gt;Nemotron 3 Nano Omni&lt;/code&gt; dentro de un ecosistema abierto y usa licencia Apache 2.0. Para desarrolladores y empresas, esto reduce la barrera de experimentación, integración y desarrollo secundario.&lt;/p&gt;
&lt;p&gt;También está muy ligado al ecosistema de inferencia de NVIDIA. En despliegues empresariales aparecen preguntas como:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;si corre de forma eficiente en GPUs NVIDIA;&lt;/li&gt;
&lt;li&gt;si soporta contexto largo y entrada multimodal;&lt;/li&gt;
&lt;li&gt;si conecta con frameworks de agentes existentes;&lt;/li&gt;
&lt;li&gt;si procesa documentos internos, audio/vídeo y capturas de UI;&lt;/li&gt;
&lt;li&gt;si puede desplegarse en entornos privados.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;NVIDIA afirma que el modelo puede alcanzar hasta 9x el throughput de modelos abiertos omnimodales comparables. El valor real dependerá del hardware, contexto, modalidades y framework, pero la dirección es clara: unir modelos abiertos multimodales con infraestructura de inferencia empresarial.&lt;/p&gt;
&lt;h2 id=&#34;casos-de-uso-adecuados&#34;&gt;Casos de uso adecuados
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;Nemotron 3 Nano Omni&lt;/code&gt; encaja mejor en:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;agentes que entienden texto, imagen, audio y vídeo al mismo tiempo;&lt;/li&gt;
&lt;li&gt;inteligencia documental empresarial y QA de conocimiento;&lt;/li&gt;
&lt;li&gt;operación de ordenador basada en capturas o interfaces web;&lt;/li&gt;
&lt;li&gt;análisis multimodal de reuniones, atención al cliente y docencia;&lt;/li&gt;
&lt;li&gt;comprensión de vídeo, revisión de workflows y razonamiento temporal;&lt;/li&gt;
&lt;li&gt;equipos que necesitan licencia abierta y despliegue privado.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;No es necesariamente lo mejor para todo usuario. Para chat local, completado de código o QA simple, un modelo de lenguaje de una sola modalidad puede ser más ligero y rápido.&lt;/p&gt;
&lt;h2 id=&#34;qué-significa-para-ai-agents&#34;&gt;Qué significa para AI Agents
&lt;/h2&gt;&lt;p&gt;Para que los AI Agents entren realmente en escenarios de trabajo, no basta con escribir texto. Necesitan entender interfaces, voz, documentos y cambios en vídeo, y convertirlo en la siguiente acción.&lt;/p&gt;
&lt;p&gt;Ahí es donde &lt;code&gt;Nemotron 3 Nano Omni&lt;/code&gt; importa. No es solo hacer el modelo más grande: es unificar muchos tipos de entrada que los agentes encuentran en tareas reales.&lt;/p&gt;
&lt;p&gt;Desde este ángulo, el lanzamiento de NVIDIA no es solo &amp;ldquo;otro modelo multimodal&amp;rdquo;. Es parte del esfuerzo por conectar modelos abiertos, inferencia GPU, agentes empresariales y despliegue privado. Lo siguiente a observar será su rendimiento en frameworks de agentes, workflows empresariales y despliegues locales.&lt;/p&gt;
&lt;p&gt;Referencias:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://blogs.nvidia.cn/blog/nemotron-3-nano-omni-multimodal-ai-agents/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;NVIDIA Technical Blog: NVIDIA Nemotron 3 Nano Omni&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        
    </channel>
</rss>
