<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>GUI Agent on KnightLi Blog</title>
        <link>https://www.knightli.com/es/tags/gui-agent/</link>
        <description>Recent content in GUI Agent on KnightLi Blog</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>es</language>
        <lastBuildDate>Tue, 19 May 2026 10:56:50 +0800</lastBuildDate><atom:link href="https://www.knightli.com/es/tags/gui-agent/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>¿Dejar que la IA opere el ordenador? UI-TARS-desktop conecta escritorio, navegador y herramientas</title>
        <link>https://www.knightli.com/es/2026/05/19/ui-tars-desktop-multimodal-ai-agent-stack/</link>
        <pubDate>Tue, 19 May 2026 10:56:50 +0800</pubDate>
        
        <guid>https://www.knightli.com/es/2026/05/19/ui-tars-desktop-multimodal-ai-agent-stack/</guid>
        <description>&lt;p&gt;&lt;code&gt;bytedance/UI-TARS-desktop&lt;/code&gt; es el proyecto open source de ByteDance para AI Agents multimodales. No es solo una aplicación de escritorio, sino un stack de agentes. El README actual contiene principalmente dos direcciones: &lt;code&gt;Agent TARS&lt;/code&gt; y &lt;code&gt;UI-TARS Desktop&lt;/code&gt;.&lt;/p&gt;
&lt;p&gt;URL del proyecto: &lt;a class=&#34;link&#34; href=&#34;https://github.com/bytedance/UI-TARS-desktop&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://github.com/bytedance/UI-TARS-desktop&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;Sitio oficial: &lt;a class=&#34;link&#34; href=&#34;https://agent-tars.com&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://agent-tars.com&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;En el momento de escribir este artículo, la API de GitHub mostraba unas 34k estrellas, TypeScript como lenguaje principal y licencia Apache-2.0. El README lo describe como &amp;ldquo;Open-Source Multimodal AI Agent Stack&amp;rdquo;.&lt;/p&gt;
&lt;h2 id=&#34;diferencia-entre-agent-tars-y-ui-tars-desktop&#34;&gt;Diferencia entre Agent TARS y UI-TARS Desktop
&lt;/h2&gt;&lt;p&gt;El README coloca ambos proyectos en una misma tabla comparativa:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Agent TARS&lt;/code&gt;: stack general de AI Agent multimodal que conecta GUI Agent, visión, terminal, navegador y flujos de producto.&lt;/li&gt;
&lt;li&gt;&lt;code&gt;UI-TARS Desktop&lt;/code&gt;: aplicación de escritorio basada en modelos UI-TARS, con capacidades nativas de GUI Agent para operar ordenadores locales o remotos y navegadores.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;En pocas palabras, Agent TARS se parece más a un runtime general de agentes, mientras que UI-TARS Desktop es la entrada de operación GUI en escritorio.&lt;/p&gt;
&lt;h2 id=&#34;qué-puede-hacer-agent-tars&#34;&gt;Qué puede hacer Agent TARS
&lt;/h2&gt;&lt;p&gt;Agent TARS ofrece principalmente CLI y Web UI. Su objetivo es permitir que modelos multimodales completen flujos de tareas más cercanos a la operación humana mediante MCP y distintas herramientas.&lt;/p&gt;
&lt;p&gt;El README lista capacidades como:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Arranque CLI con un comando, con Web UI headful y servidor headless.&lt;/li&gt;
&lt;li&gt;Control híbrido de navegador mediante GUI Agent, DOM o estrategias mixtas.&lt;/li&gt;
&lt;li&gt;Event Stream para trazado y depuración.&lt;/li&gt;
&lt;li&gt;Integración MCP para montar MCP Servers y herramientas reales.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Inicio rápido:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;npx @agent-tars/cli@latest
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Instalación global:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;npm install @agent-tars/cli@latest -g
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Ejecución con proveedor de modelo:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;agent-tars --provider volcengine --model doubao-1-5-thinking-vision-pro-250428 --apiKey your-api-key
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;agent-tars --provider anthropic --model claude-3-7-sonnet-latest --apiKey your-api-key
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h2 id=&#34;qué-puede-hacer-ui-tars-desktop&#34;&gt;Qué puede hacer UI-TARS Desktop
&lt;/h2&gt;&lt;p&gt;UI-TARS Desktop es un GUI Agent de escritorio. Basado en UI-TARS y las familias Seed-1.5-VL / 1.6, se centra en que el modelo entienda la pantalla y ejecute acciones de ratón y teclado.&lt;/p&gt;
&lt;p&gt;El README menciona:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Control con lenguaje natural.&lt;/li&gt;
&lt;li&gt;Capturas de pantalla y reconocimiento visual.&lt;/li&gt;
&lt;li&gt;Control preciso de ratón y teclado.&lt;/li&gt;
&lt;li&gt;Soporte multiplataforma para Windows, macOS y navegador.&lt;/li&gt;
&lt;li&gt;Feedback y estado en tiempo real.&lt;/li&gt;
&lt;li&gt;Procesamiento local con énfasis en privacidad y seguridad.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Ejemplos de tareas incluyen cambiar ajustes de VS Code, revisar issues de GitHub y operar ordenadores o navegadores remotos.&lt;/p&gt;
&lt;h2 id=&#34;por-qué-importan-los-gui-agents&#34;&gt;Por qué importan los GUI Agents
&lt;/h2&gt;&lt;p&gt;La automatización tradicional depende de APIs, DOM o scripts. Un GUI Agent parte de la interfaz: ve botones, campos, menús y estado, y luego opera con ratón y teclado.&lt;/p&gt;
&lt;p&gt;Tiene dos valores. Primero, muchas aplicaciones no tienen APIs estables o las APIs no cubren todo el flujo. Un GUI Agent puede actuar sobre la misma superficie que usa una persona.&lt;/p&gt;
&lt;p&gt;Segundo, los modelos multimodales pueden manejar capturas, documentos, páginas web e interfaces de aplicaciones, combinando comprensión visual y ejecución.&lt;/p&gt;
&lt;p&gt;También hay límites. Las operaciones GUI dependen de resolución, idioma, cambios de layout, pop-ups y latencia. En producción hacen falta permisos, confirmaciones y planes de reversión.&lt;/p&gt;
&lt;h2 id=&#34;relación-con-mcp&#34;&gt;Relación con MCP
&lt;/h2&gt;&lt;p&gt;Agent TARS enfatiza la integración MCP. MCP ayuda porque da a los agentes una forma unificada de llamar navegadores, archivos, línea de comandos, bases de datos, servicios internos y otras herramientas.&lt;/p&gt;
&lt;p&gt;Para tareas complejas, hacer clic en la GUI no basta. Un patrón más estable suele ser:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Usar APIs cuando existen.&lt;/li&gt;
&lt;li&gt;Usar visión cuando hay que entender el estado de la página.&lt;/li&gt;
&lt;li&gt;Usar control de navegador cuando se necesita interacción web real.&lt;/li&gt;
&lt;li&gt;Usar GUI Agent cuando hay que operar software local.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Proyectos como UI-TARS-desktop exploran cómo juntar esas capacidades en un mismo stack de agentes.&lt;/p&gt;
&lt;h2 id=&#34;precauciones&#34;&gt;Precauciones
&lt;/h2&gt;&lt;p&gt;Los agentes de escritorio tienen riesgo de ejecución. Pueden operar ratón, teclado y navegador, así que hay que limitar permisos para evitar cambios accidentales en archivos, cuentas, pagos o sistemas de producción.&lt;/p&gt;
&lt;p&gt;El control de ordenadores y navegadores remotos necesita límites de seguridad claros. No se deben exponer endpoints de control sin autenticación a internet.&lt;/p&gt;
&lt;p&gt;Los modelos multimodales pueden leer mal la interfaz. Operaciones críticas como borrar, enviar, pagar, publicar o ejecutar trades deberían requerir confirmación humana.&lt;/p&gt;
&lt;h2 id=&#34;para-quién-es&#34;&gt;Para quién es
&lt;/h2&gt;&lt;p&gt;UI-TARS-desktop encaja con desarrolladores que exploran GUI Agents, equipos que construyen asistentes para flujos de escritorio e investigadores que comparan navegador, DOM, MCP y control visual. Todavía es más una base para desarrolladores que un asistente de consumo simple.&lt;/p&gt;
&lt;h2 id=&#34;resumen&#34;&gt;Resumen
&lt;/h2&gt;&lt;p&gt;UI-TARS-desktop merece atención porque mueve los AI Agents desde &amp;ldquo;responder en chat&amp;rdquo; hacia &amp;ldquo;ver la pantalla y operar herramientas&amp;rdquo;. Su valor no está solo en controlar el escritorio, sino en combinar GUI, navegador, terminal y MCP dentro de un mismo stack.&lt;/p&gt;
</description>
        </item>
        
    </channel>
</rss>
