讓 AI 自己操作電腦?UI-TARS-desktop 把桌面、瀏覽器和工具都接了起來

介紹 bytedance/UI-TARS-desktop:一個開源多模態 AI Agent 棧,包含 Agent TARS 和 UI-TARS Desktop,面向終端、瀏覽器、桌面 GUI 操作和 MCP 工具集成。

bytedance/UI-TARS-desktop 是字節開源的多模態 AI Agent 項目。它不是單一桌面應用,而是一套 Agent 棧,當前 README 中主要包含兩個方向:Agent TARSUI-TARS Desktop

項目地址:https://github.com/bytedance/UI-TARS-desktop

官網地址:https://agent-tars.com

截至寫作時,GitHub API 顯示這個倉庫已有約 3.4 萬 star,主要語言是 TypeScript,許可證爲 Apache-2.0。README 對它的描述是“Open-Source Multimodal AI Agent Stack”。

Agent TARS 和 UI-TARS Desktop 的區別

README 把兩個項目放在同一個表格裏:

  • Agent TARS:通用多模態 AI Agent 棧,把 GUI Agent、視覺能力、終端、瀏覽器和產品工作流連接起來。
  • UI-TARS Desktop:桌面應用,基於 UI-TARS 模型提供原生 GUI Agent 能力,可以操作本地或遠程電腦、瀏覽器。

簡單說,Agent TARS 更像通用 Agent 運行棧,UI-TARS Desktop 更像桌面端 GUI 操作入口。

Agent TARS 能做什麼

Agent TARS 主要提供 CLI 和 Web UI。它的目標是讓多模態模型通過 MCP 和各種工具完成更接近真人的任務流。

README 中列出的核心能力包括:

  • 一鍵啓動 CLI,支持 headful Web UI 和 headless server。
  • 混合瀏覽器 Agent,可以用 GUI Agent、DOM 或混合策略控制瀏覽器。
  • Event Stream,用於數據流追蹤和調試。
  • MCP 集成,可以掛載 MCP Server 接入真實工具。

快速啓動示例:

1
npx @agent-tars/cli@latest

也可以全局安裝:

1
npm install @agent-tars/cli@latest -g

使用模型提供商運行:

1
2
agent-tars --provider volcengine --model doubao-1-5-thinking-vision-pro-250428 --apiKey your-api-key
agent-tars --provider anthropic --model claude-3-7-sonnet-latest --apiKey your-api-key

UI-TARS Desktop 能做什麼

UI-TARS Desktop 是桌面 GUI Agent。它基於 UI-TARS 和 Seed-1.5-VL / 1.6 系列模型,重點是讓模型看懂屏幕並執行鼠標、鍵盤操作。

README 中列出的能力包括:

  • 自然語言控制。
  • 截圖和視覺識別。
  • 精確鼠標與鍵盤控制。
  • 跨平臺支持:Windows、macOS、Browser。
  • 實時反饋和狀態顯示。
  • 本地處理,強調隱私和安全。

示例任務包括修改 VS Code 設置、查看 GitHub issue、遠程控制電腦或瀏覽器等。

爲什麼 GUI Agent 重要

傳統自動化依賴 API、DOM 或腳本。GUI Agent 的目標是直接面對屏幕:看見按鈕、輸入框、菜單和狀態,再通過鼠標鍵盤完成操作。

這有兩個價值:

第一,很多軟件沒有穩定 API,或者 API 覆蓋不到完整流程。GUI Agent 可以像人一樣從界面入手。

第二,多模態模型可以處理截圖、文檔、網頁和應用界面,把視覺理解和操作結合起來。

但它也有侷限。GUI 操作容易受分辨率、語言、佈局變化、彈窗、網絡延遲影響。對生產流程來說,仍然需要權限控制、執行確認和錯誤回滾。

和 MCP 的關係

Agent TARS 強調 MCP 集成。MCP 的價值在於把瀏覽器、文件、命令行、數據庫、內部服務等工具統一給 Agent 調用。

對複雜任務來說,單靠 GUI 點擊不夠穩定。更好的方式往往是:

  • 能用 API 的地方走 API。
  • 需要看頁面狀態時用視覺。
  • 需要真實網頁交互時用瀏覽器。
  • 需要本地軟件操作時用 GUI Agent。

UI-TARS-desktop 這類項目正在探索的,就是把這些能力放到同一個 Agent 棧裏。

使用前要注意什麼

第一,桌面 Agent 有執行風險。它能操作鼠標、鍵盤和瀏覽器,就必須限制權限,避免誤操作文件、賬號、支付或生產系統。

第二,遠程電腦和遠程瀏覽器操作要注意安全邊界。不要把未認證的控制入口暴露到公網。

第三,多模態模型可能誤識別界面。關鍵操作前最好有人確認,尤其是刪除、提交、支付、發帖、交易等不可逆操作。

第四,模型供應商、API key 和本地數據要分開管理,不要把敏感憑據寫進公開配置。

適合誰

UI-TARS-desktop 適合這些場景:

  • 想研究 GUI Agent 和 Computer Use 的開發者。
  • 需要讓 AI 操作桌面應用或瀏覽器的團隊。
  • 想把 MCP 工具、瀏覽器操作和視覺模型組合起來的 Agent 開發者。
  • 需要遠程電腦 / 遠程瀏覽器操作實驗環境的用戶。

如果只是簡單網頁自動化,普通 Playwright 或 Selenium 可能更直接。如果任務涉及桌面軟件、多模態理解和複雜工具鏈,UI-TARS-desktop 更值得看。

小結

UI-TARS-desktop 的看點在於它不是隻做一個“會點按鈕”的桌面助手,而是把 GUI Agent、視覺模型、瀏覽器、CLI、MCP 和遠程操作放進同一套多模態 Agent 棧。

這類項目代表了 AI Agent 的一個重要方向:從文本對話走向真實軟件環境。但越接近真實操作,越需要權限管理、執行審計和人工確認。試用時建議先從低風險任務開始。

參考項目:https://github.com/bytedance/UI-TARS-desktop

记录并分享
使用 Hugo 建立
主題 StackJimmy 設計