AIにPCを操作させる?UI-TARS-desktopはデスクトップ、ブラウザ、ツールをつなぐ

bytedance/UI-TARS-desktopを紹介する。Agent TARSとUI-TARS Desktopを含むオープンソースのマルチモーダルAI Agentスタックで、端末、ブラウザ、デスクトップGUI操作、MCPツール連携を扱う。

bytedance/UI-TARS-desktop は、ByteDance が公開しているマルチモーダル AI Agent プロジェクトです。単一のデスクトップアプリではなく、Agentスタックとして構成されています。現在の README では主に Agent TARSUI-TARS Desktop の2つの方向が示されています。

プロジェクトURL:https://github.com/bytedance/UI-TARS-desktop

公式サイト:https://agent-tars.com

執筆時点では、GitHub API上で約3.4万 star、主要言語は TypeScript、ライセンスは Apache-2.0 でした。READMEでは “Open-Source Multimodal AI Agent Stack” と説明されています。

Agent TARS と UI-TARS Desktop の違い

READMEでは2つのプロジェクトが同じ比較表で説明されています。

  • Agent TARS:GUI Agent、視覚能力、ターミナル、ブラウザ、プロダクトワークフローをつなぐ汎用マルチモーダルAI Agentスタック。
  • UI-TARS Desktop:UI-TARSモデルをベースにしたデスクトップアプリで、ローカルまたはリモートPC、ブラウザを操作するネイティブGUI Agent機能を提供。

簡単に言えば、Agent TARS は汎用Agentランタイムに近く、UI-TARS Desktop はデスクトップGUI操作の入口に近いものです。

Agent TARS でできること

Agent TARS は主に CLI と Web UI を提供します。目的は、マルチモーダルモデルが MCP や各種ツールを通じて、人間の作業に近いタスクフローを実行できるようにすることです。

READMEにある主な機能は次の通りです。

  • ワンコマンドCLI起動。headful Web UI と headless server に対応。
  • GUI Agent、DOM、混合戦略によるブラウザAgent制御。
  • データフロー追跡とデバッグのための Event Stream。
  • MCP Server を接続して実ツールを呼び出す MCP 連携。

クイックスタート:

1
npx @agent-tars/cli@latest

グローバルインストール:

1
npm install @agent-tars/cli@latest -g

モデルプロバイダーを指定して実行:

1
2
agent-tars --provider volcengine --model doubao-1-5-thinking-vision-pro-250428 --apiKey your-api-key
agent-tars --provider anthropic --model claude-3-7-sonnet-latest --apiKey your-api-key

UI-TARS Desktop でできること

UI-TARS Desktop はデスクトップGUI Agentです。UI-TARS と Seed-1.5-VL / 1.6 系モデルをベースに、モデルが画面を理解し、マウスとキーボード操作を実行することに重点があります。

READMEにある機能は次の通りです。

  • 自然言語による制御。
  • スクリーンショットと視覚認識。
  • 精密なマウス・キーボード制御。
  • Windows、macOS、ブラウザのクロスプラットフォーム対応。
  • リアルタイムフィードバックと状態表示。
  • プライバシーと安全性を重視したローカル処理。

例として、VS Code 設定の変更、GitHub issue の確認、リモートPCやブラウザの操作などが挙げられます。

なぜ GUI Agent が重要なのか

従来の自動化は API、DOM、スクリプトに依存します。GUI Agent は画面から始めます。ボタン、入力欄、メニュー、状態を見て、マウスとキーボードで操作します。

価値は2つあります。第一に、多くのソフトウェアには安定したAPIがないか、APIが全フローをカバーしていません。GUI Agent は人間と同じ画面から操作できます。

第二に、マルチモーダルモデルはスクリーンショット、文書、Webページ、アプリ画面を扱えます。視覚理解と操作を組み合わせられます。

一方で制約もあります。GUI操作は解像度、言語、レイアウト変更、ポップアップ、ネットワーク遅延の影響を受けます。本番フローでは、権限管理、確認ステップ、ロールバックが必要です。

MCP との関係

Agent TARS は MCP 連携を重視しています。MCP は、ブラウザ、ファイル、コマンドライン、データベース、内部サービスなどを Agent が統一的に呼び出すために有用です。

複雑なタスクでは、GUIクリックだけでは安定しません。より良いパターンは次のようなものです。

  • API が使える場所では API を使う。
  • ページ状態を理解する必要があるときは視覚を使う。
  • 実際のWeb操作が必要なときはブラウザ制御を使う。
  • ローカルソフトを操作する必要があるときは GUI Agent を使う。

UI-TARS-desktop のようなプロジェクトは、これらを1つのAgentスタックにまとめる方向を探っています。

使う前の注意点

まず、デスクトップAgentには実行リスクがあります。マウス、キーボード、ブラウザを操作できるため、ファイル、アカウント、支払い、本番システムを誤操作しないよう権限を制限する必要があります。

次に、リモートPCやリモートブラウザの操作には明確なセキュリティ境界が必要です。認証のない制御入口を公開ネットワークに出してはいけません。

最後に、マルチモーダルモデルは画面を誤認識する可能性があります。削除、送信、支払い、公開、取引など不可逆な操作では、人間の確認を入れるべきです。

向いている人

UI-TARS-desktop は、GUI Agentを試したい開発者、デスクトップ作業向けAIアシスタントを作るチーム、ブラウザ、DOM、MCP、視覚制御の戦略を比較したい研究者に向いています。まだ一般向けの単純なアシスタントというより、開発者向けの色が強いです。

まとめ

UI-TARS-desktop が注目に値するのは、AI Agent を「チャットで答える」段階から「画面を見てツールを操作する」方向へ進めている点です。価値はデスクトップ制御だけではなく、GUI、ブラウザ、ターミナル、MCP を1つのスタックにまとめるところにあります。

记录并分享
Hugo で構築されています。
テーマ StackJimmy によって設計されています。