bytedance/UI-TARS-desktop は、ByteDance が公開しているマルチモーダル AI Agent プロジェクトです。単一のデスクトップアプリではなく、Agentスタックとして構成されています。現在の README では主に Agent TARS と UI-TARS Desktop の2つの方向が示されています。
プロジェクトURL:https://github.com/bytedance/UI-TARS-desktop
公式サイト:https://agent-tars.com
執筆時点では、GitHub API上で約3.4万 star、主要言語は TypeScript、ライセンスは Apache-2.0 でした。READMEでは “Open-Source Multimodal AI Agent Stack” と説明されています。
Agent TARS と UI-TARS Desktop の違い
READMEでは2つのプロジェクトが同じ比較表で説明されています。
Agent TARS:GUI Agent、視覚能力、ターミナル、ブラウザ、プロダクトワークフローをつなぐ汎用マルチモーダルAI Agentスタック。UI-TARS Desktop:UI-TARSモデルをベースにしたデスクトップアプリで、ローカルまたはリモートPC、ブラウザを操作するネイティブGUI Agent機能を提供。
簡単に言えば、Agent TARS は汎用Agentランタイムに近く、UI-TARS Desktop はデスクトップGUI操作の入口に近いものです。
Agent TARS でできること
Agent TARS は主に CLI と Web UI を提供します。目的は、マルチモーダルモデルが MCP や各種ツールを通じて、人間の作業に近いタスクフローを実行できるようにすることです。
READMEにある主な機能は次の通りです。
- ワンコマンドCLI起動。headful Web UI と headless server に対応。
- GUI Agent、DOM、混合戦略によるブラウザAgent制御。
- データフロー追跡とデバッグのための Event Stream。
- MCP Server を接続して実ツールを呼び出す MCP 連携。
クイックスタート:
|
|
グローバルインストール:
|
|
モデルプロバイダーを指定して実行:
|
|
UI-TARS Desktop でできること
UI-TARS Desktop はデスクトップGUI Agentです。UI-TARS と Seed-1.5-VL / 1.6 系モデルをベースに、モデルが画面を理解し、マウスとキーボード操作を実行することに重点があります。
READMEにある機能は次の通りです。
- 自然言語による制御。
- スクリーンショットと視覚認識。
- 精密なマウス・キーボード制御。
- Windows、macOS、ブラウザのクロスプラットフォーム対応。
- リアルタイムフィードバックと状態表示。
- プライバシーと安全性を重視したローカル処理。
例として、VS Code 設定の変更、GitHub issue の確認、リモートPCやブラウザの操作などが挙げられます。
なぜ GUI Agent が重要なのか
従来の自動化は API、DOM、スクリプトに依存します。GUI Agent は画面から始めます。ボタン、入力欄、メニュー、状態を見て、マウスとキーボードで操作します。
価値は2つあります。第一に、多くのソフトウェアには安定したAPIがないか、APIが全フローをカバーしていません。GUI Agent は人間と同じ画面から操作できます。
第二に、マルチモーダルモデルはスクリーンショット、文書、Webページ、アプリ画面を扱えます。視覚理解と操作を組み合わせられます。
一方で制約もあります。GUI操作は解像度、言語、レイアウト変更、ポップアップ、ネットワーク遅延の影響を受けます。本番フローでは、権限管理、確認ステップ、ロールバックが必要です。
MCP との関係
Agent TARS は MCP 連携を重視しています。MCP は、ブラウザ、ファイル、コマンドライン、データベース、内部サービスなどを Agent が統一的に呼び出すために有用です。
複雑なタスクでは、GUIクリックだけでは安定しません。より良いパターンは次のようなものです。
- API が使える場所では API を使う。
- ページ状態を理解する必要があるときは視覚を使う。
- 実際のWeb操作が必要なときはブラウザ制御を使う。
- ローカルソフトを操作する必要があるときは GUI Agent を使う。
UI-TARS-desktop のようなプロジェクトは、これらを1つのAgentスタックにまとめる方向を探っています。
使う前の注意点
まず、デスクトップAgentには実行リスクがあります。マウス、キーボード、ブラウザを操作できるため、ファイル、アカウント、支払い、本番システムを誤操作しないよう権限を制限する必要があります。
次に、リモートPCやリモートブラウザの操作には明確なセキュリティ境界が必要です。認証のない制御入口を公開ネットワークに出してはいけません。
最後に、マルチモーダルモデルは画面を誤認識する可能性があります。削除、送信、支払い、公開、取引など不可逆な操作では、人間の確認を入れるべきです。
向いている人
UI-TARS-desktop は、GUI Agentを試したい開発者、デスクトップ作業向けAIアシスタントを作るチーム、ブラウザ、DOM、MCP、視覚制御の戦略を比較したい研究者に向いています。まだ一般向けの単純なアシスタントというより、開発者向けの色が強いです。
まとめ
UI-TARS-desktop が注目に値するのは、AI Agent を「チャットで答える」段階から「画面を見てツールを操作する」方向へ進めている点です。価値はデスクトップ制御だけではなく、GUI、ブラウザ、ターミナル、MCP を1つのスタックにまとめるところにあります。