<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>GUI Agent on KnightLiブログ</title>
        <link>https://www.knightli.com/ja/tags/gui-agent/</link>
        <description>Recent content in GUI Agent on KnightLiブログ</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>ja</language>
        <lastBuildDate>Tue, 19 May 2026 10:56:50 +0800</lastBuildDate><atom:link href="https://www.knightli.com/ja/tags/gui-agent/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>AIにPCを操作させる？UI-TARS-desktopはデスクトップ、ブラウザ、ツールをつなぐ</title>
        <link>https://www.knightli.com/ja/2026/05/19/ui-tars-desktop-multimodal-ai-agent-stack/</link>
        <pubDate>Tue, 19 May 2026 10:56:50 +0800</pubDate>
        
        <guid>https://www.knightli.com/ja/2026/05/19/ui-tars-desktop-multimodal-ai-agent-stack/</guid>
        <description>&lt;p&gt;&lt;code&gt;bytedance/UI-TARS-desktop&lt;/code&gt; は、ByteDance が公開しているマルチモーダル AI Agent プロジェクトです。単一のデスクトップアプリではなく、Agentスタックとして構成されています。現在の README では主に &lt;code&gt;Agent TARS&lt;/code&gt; と &lt;code&gt;UI-TARS Desktop&lt;/code&gt; の2つの方向が示されています。&lt;/p&gt;
&lt;p&gt;プロジェクトURL：&lt;a class=&#34;link&#34; href=&#34;https://github.com/bytedance/UI-TARS-desktop&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://github.com/bytedance/UI-TARS-desktop&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;公式サイト：&lt;a class=&#34;link&#34; href=&#34;https://agent-tars.com&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://agent-tars.com&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;執筆時点では、GitHub API上で約3.4万 star、主要言語は TypeScript、ライセンスは Apache-2.0 でした。READMEでは &amp;ldquo;Open-Source Multimodal AI Agent Stack&amp;rdquo; と説明されています。&lt;/p&gt;
&lt;h2 id=&#34;agent-tars-と-ui-tars-desktop-の違い&#34;&gt;Agent TARS と UI-TARS Desktop の違い
&lt;/h2&gt;&lt;p&gt;READMEでは2つのプロジェクトが同じ比較表で説明されています。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Agent TARS&lt;/code&gt;：GUI Agent、視覚能力、ターミナル、ブラウザ、プロダクトワークフローをつなぐ汎用マルチモーダルAI Agentスタック。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;UI-TARS Desktop&lt;/code&gt;：UI-TARSモデルをベースにしたデスクトップアプリで、ローカルまたはリモートPC、ブラウザを操作するネイティブGUI Agent機能を提供。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;簡単に言えば、Agent TARS は汎用Agentランタイムに近く、UI-TARS Desktop はデスクトップGUI操作の入口に近いものです。&lt;/p&gt;
&lt;h2 id=&#34;agent-tars-でできること&#34;&gt;Agent TARS でできること
&lt;/h2&gt;&lt;p&gt;Agent TARS は主に CLI と Web UI を提供します。目的は、マルチモーダルモデルが MCP や各種ツールを通じて、人間の作業に近いタスクフローを実行できるようにすることです。&lt;/p&gt;
&lt;p&gt;READMEにある主な機能は次の通りです。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;ワンコマンドCLI起動。headful Web UI と headless server に対応。&lt;/li&gt;
&lt;li&gt;GUI Agent、DOM、混合戦略によるブラウザAgent制御。&lt;/li&gt;
&lt;li&gt;データフロー追跡とデバッグのための Event Stream。&lt;/li&gt;
&lt;li&gt;MCP Server を接続して実ツールを呼び出す MCP 連携。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;クイックスタート：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;npx @agent-tars/cli@latest
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;グローバルインストール：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;npm install @agent-tars/cli@latest -g
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;モデルプロバイダーを指定して実行：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;agent-tars --provider volcengine --model doubao-1-5-thinking-vision-pro-250428 --apiKey your-api-key
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;agent-tars --provider anthropic --model claude-3-7-sonnet-latest --apiKey your-api-key
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h2 id=&#34;ui-tars-desktop-でできること&#34;&gt;UI-TARS Desktop でできること
&lt;/h2&gt;&lt;p&gt;UI-TARS Desktop はデスクトップGUI Agentです。UI-TARS と Seed-1.5-VL / 1.6 系モデルをベースに、モデルが画面を理解し、マウスとキーボード操作を実行することに重点があります。&lt;/p&gt;
&lt;p&gt;READMEにある機能は次の通りです。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;自然言語による制御。&lt;/li&gt;
&lt;li&gt;スクリーンショットと視覚認識。&lt;/li&gt;
&lt;li&gt;精密なマウス・キーボード制御。&lt;/li&gt;
&lt;li&gt;Windows、macOS、ブラウザのクロスプラットフォーム対応。&lt;/li&gt;
&lt;li&gt;リアルタイムフィードバックと状態表示。&lt;/li&gt;
&lt;li&gt;プライバシーと安全性を重視したローカル処理。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;例として、VS Code 設定の変更、GitHub issue の確認、リモートPCやブラウザの操作などが挙げられます。&lt;/p&gt;
&lt;h2 id=&#34;なぜ-gui-agent-が重要なのか&#34;&gt;なぜ GUI Agent が重要なのか
&lt;/h2&gt;&lt;p&gt;従来の自動化は API、DOM、スクリプトに依存します。GUI Agent は画面から始めます。ボタン、入力欄、メニュー、状態を見て、マウスとキーボードで操作します。&lt;/p&gt;
&lt;p&gt;価値は2つあります。第一に、多くのソフトウェアには安定したAPIがないか、APIが全フローをカバーしていません。GUI Agent は人間と同じ画面から操作できます。&lt;/p&gt;
&lt;p&gt;第二に、マルチモーダルモデルはスクリーンショット、文書、Webページ、アプリ画面を扱えます。視覚理解と操作を組み合わせられます。&lt;/p&gt;
&lt;p&gt;一方で制約もあります。GUI操作は解像度、言語、レイアウト変更、ポップアップ、ネットワーク遅延の影響を受けます。本番フローでは、権限管理、確認ステップ、ロールバックが必要です。&lt;/p&gt;
&lt;h2 id=&#34;mcp-との関係&#34;&gt;MCP との関係
&lt;/h2&gt;&lt;p&gt;Agent TARS は MCP 連携を重視しています。MCP は、ブラウザ、ファイル、コマンドライン、データベース、内部サービスなどを Agent が統一的に呼び出すために有用です。&lt;/p&gt;
&lt;p&gt;複雑なタスクでは、GUIクリックだけでは安定しません。より良いパターンは次のようなものです。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;API が使える場所では API を使う。&lt;/li&gt;
&lt;li&gt;ページ状態を理解する必要があるときは視覚を使う。&lt;/li&gt;
&lt;li&gt;実際のWeb操作が必要なときはブラウザ制御を使う。&lt;/li&gt;
&lt;li&gt;ローカルソフトを操作する必要があるときは GUI Agent を使う。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;UI-TARS-desktop のようなプロジェクトは、これらを1つのAgentスタックにまとめる方向を探っています。&lt;/p&gt;
&lt;h2 id=&#34;使う前の注意点&#34;&gt;使う前の注意点
&lt;/h2&gt;&lt;p&gt;まず、デスクトップAgentには実行リスクがあります。マウス、キーボード、ブラウザを操作できるため、ファイル、アカウント、支払い、本番システムを誤操作しないよう権限を制限する必要があります。&lt;/p&gt;
&lt;p&gt;次に、リモートPCやリモートブラウザの操作には明確なセキュリティ境界が必要です。認証のない制御入口を公開ネットワークに出してはいけません。&lt;/p&gt;
&lt;p&gt;最後に、マルチモーダルモデルは画面を誤認識する可能性があります。削除、送信、支払い、公開、取引など不可逆な操作では、人間の確認を入れるべきです。&lt;/p&gt;
&lt;h2 id=&#34;向いている人&#34;&gt;向いている人
&lt;/h2&gt;&lt;p&gt;UI-TARS-desktop は、GUI Agentを試したい開発者、デスクトップ作業向けAIアシスタントを作るチーム、ブラウザ、DOM、MCP、視覚制御の戦略を比較したい研究者に向いています。まだ一般向けの単純なアシスタントというより、開発者向けの色が強いです。&lt;/p&gt;
&lt;h2 id=&#34;まとめ&#34;&gt;まとめ
&lt;/h2&gt;&lt;p&gt;UI-TARS-desktop が注目に値するのは、AI Agent を「チャットで答える」段階から「画面を見てツールを操作する」方向へ進めている点です。価値はデスクトップ制御だけではなく、GUI、ブラウザ、ターミナル、MCP を1つのスタックにまとめるところにあります。&lt;/p&gt;
</description>
        </item>
        
    </channel>
</rss>
