讓 AI 自己操作電腦？UI-TARS-desktop 把桌面、瀏覽器和工具都接了起來

bytedance/UI-TARS-desktop 是字節開源的多模態 AI Agent 項目。它不是單一桌面應用，而是一套 Agent 棧，當前 README 中主要包含兩個方向：Agent TARS 和 UI-TARS Desktop。

項目地址：https://github.com/bytedance/UI-TARS-desktop

官網地址：https://agent-tars.com

截至寫作時，GitHub API 顯示這個倉庫已有約 3.4 萬 star，主要語言是 TypeScript，許可證爲 Apache-2.0。README 對它的描述是“Open-Source Multimodal AI Agent Stack”。

Agent TARS 和 UI-TARS Desktop 的區別

README 把兩個項目放在同一個表格裏：

Agent TARS：通用多模態 AI Agent 棧，把 GUI Agent、視覺能力、終端、瀏覽器和產品工作流連接起來。
UI-TARS Desktop：桌面應用，基於 UI-TARS 模型提供原生 GUI Agent 能力，可以操作本地或遠程電腦、瀏覽器。

簡單說，Agent TARS 更像通用 Agent 運行棧，UI-TARS Desktop 更像桌面端 GUI 操作入口。

Agent TARS 能做什麼

Agent TARS 主要提供 CLI 和 Web UI。它的目標是讓多模態模型通過 MCP 和各種工具完成更接近真人的任務流。

README 中列出的核心能力包括：

一鍵啓動 CLI，支持 headful Web UI 和 headless server。
混合瀏覽器 Agent，可以用 GUI Agent、DOM 或混合策略控制瀏覽器。
Event Stream，用於數據流追蹤和調試。
MCP 集成，可以掛載 MCP Server 接入真實工具。

快速啓動示例：

1

npx @agent-tars/cli@latest

也可以全局安裝：

1

npm install @agent-tars/cli@latest -g

使用模型提供商運行：

1
2


agent-tars --provider volcengine --model doubao-1-5-thinking-vision-pro-250428 --apiKey your-api-key
agent-tars --provider anthropic --model claude-3-7-sonnet-latest --apiKey your-api-key

UI-TARS Desktop 能做什麼

UI-TARS Desktop 是桌面 GUI Agent。它基於 UI-TARS 和 Seed-1.5-VL / 1.6 系列模型，重點是讓模型看懂屏幕並執行鼠標、鍵盤操作。

README 中列出的能力包括：

自然語言控制。
截圖和視覺識別。
精確鼠標與鍵盤控制。
跨平臺支持：Windows、macOS、Browser。
實時反饋和狀態顯示。
本地處理，強調隱私和安全。

示例任務包括修改 VS Code 設置、查看 GitHub issue、遠程控制電腦或瀏覽器等。

爲什麼 GUI Agent 重要

傳統自動化依賴 API、DOM 或腳本。GUI Agent 的目標是直接面對屏幕：看見按鈕、輸入框、菜單和狀態，再通過鼠標鍵盤完成操作。

這有兩個價值：

第一，很多軟件沒有穩定 API，或者 API 覆蓋不到完整流程。GUI Agent 可以像人一樣從界面入手。

第二，多模態模型可以處理截圖、文檔、網頁和應用界面，把視覺理解和操作結合起來。

但它也有侷限。GUI 操作容易受分辨率、語言、佈局變化、彈窗、網絡延遲影響。對生產流程來說，仍然需要權限控制、執行確認和錯誤回滾。

和 MCP 的關係

Agent TARS 強調 MCP 集成。MCP 的價值在於把瀏覽器、文件、命令行、數據庫、內部服務等工具統一給 Agent 調用。

對複雜任務來說，單靠 GUI 點擊不夠穩定。更好的方式往往是：

能用 API 的地方走 API。
需要看頁面狀態時用視覺。
需要真實網頁交互時用瀏覽器。
需要本地軟件操作時用 GUI Agent。

UI-TARS-desktop 這類項目正在探索的，就是把這些能力放到同一個 Agent 棧裏。

使用前要注意什麼

第一，桌面 Agent 有執行風險。它能操作鼠標、鍵盤和瀏覽器，就必須限制權限，避免誤操作文件、賬號、支付或生產系統。

第二，遠程電腦和遠程瀏覽器操作要注意安全邊界。不要把未認證的控制入口暴露到公網。

第三，多模態模型可能誤識別界面。關鍵操作前最好有人確認，尤其是刪除、提交、支付、發帖、交易等不可逆操作。

第四，模型供應商、API key 和本地數據要分開管理，不要把敏感憑據寫進公開配置。

適合誰

UI-TARS-desktop 適合這些場景：

想研究 GUI Agent 和 Computer Use 的開發者。
需要讓 AI 操作桌面應用或瀏覽器的團隊。
想把 MCP 工具、瀏覽器操作和視覺模型組合起來的 Agent 開發者。
需要遠程電腦 / 遠程瀏覽器操作實驗環境的用戶。

如果只是簡單網頁自動化，普通 Playwright 或 Selenium 可能更直接。如果任務涉及桌面軟件、多模態理解和複雜工具鏈，UI-TARS-desktop 更值得看。

小結

UI-TARS-desktop 的看點在於它不是隻做一個“會點按鈕”的桌面助手，而是把 GUI Agent、視覺模型、瀏覽器、CLI、MCP 和遠程操作放進同一套多模態 Agent 棧。

這類項目代表了 AI Agent 的一個重要方向：從文本對話走向真實軟件環境。但越接近真實操作，越需要權限管理、執行審計和人工確認。試用時建議先從低風險任務開始。

參考項目：https://github.com/bytedance/UI-TARS-desktop