让 AI 自己操作电脑？UI-TARS-desktop 把桌面、浏览器和工具都接了起来

bytedance/UI-TARS-desktop 是字节开源的多模态 AI Agent 项目。它不是单一桌面应用，而是一套 Agent 栈，当前 README 中主要包含两个方向：Agent TARS 和 UI-TARS Desktop。

项目地址：https://github.com/bytedance/UI-TARS-desktop

官网地址：https://agent-tars.com

截至写作时，GitHub API 显示这个仓库已有约 3.4 万 star，主要语言是 TypeScript，许可证为 Apache-2.0。README 对它的描述是“Open-Source Multimodal AI Agent Stack”。

Agent TARS 和 UI-TARS Desktop 的区别

README 把两个项目放在同一个表格里：

Agent TARS：通用多模态 AI Agent 栈，把 GUI Agent、视觉能力、终端、浏览器和产品工作流连接起来。
UI-TARS Desktop：桌面应用，基于 UI-TARS 模型提供原生 GUI Agent 能力，可以操作本地或远程电脑、浏览器。

简单说，Agent TARS 更像通用 Agent 运行栈，UI-TARS Desktop 更像桌面端 GUI 操作入口。

Agent TARS 能做什么

Agent TARS 主要提供 CLI 和 Web UI。它的目标是让多模态模型通过 MCP 和各种工具完成更接近真人的任务流。

README 中列出的核心能力包括：

一键启动 CLI，支持 headful Web UI 和 headless server。
混合浏览器 Agent，可以用 GUI Agent、DOM 或混合策略控制浏览器。
Event Stream，用于数据流追踪和调试。
MCP 集成，可以挂载 MCP Server 接入真实工具。

快速启动示例：

1

npx @agent-tars/cli@latest

也可以全局安装：

1

npm install @agent-tars/cli@latest -g

使用模型提供商运行：

1
2


agent-tars --provider volcengine --model doubao-1-5-thinking-vision-pro-250428 --apiKey your-api-key
agent-tars --provider anthropic --model claude-3-7-sonnet-latest --apiKey your-api-key

UI-TARS Desktop 能做什么

UI-TARS Desktop 是桌面 GUI Agent。它基于 UI-TARS 和 Seed-1.5-VL / 1.6 系列模型，重点是让模型看懂屏幕并执行鼠标、键盘操作。

README 中列出的能力包括：

自然语言控制。
截图和视觉识别。
精确鼠标与键盘控制。
跨平台支持：Windows、macOS、Browser。
实时反馈和状态显示。
本地处理，强调隐私和安全。

示例任务包括修改 VS Code 设置、查看 GitHub issue、远程控制电脑或浏览器等。

为什么 GUI Agent 重要

传统自动化依赖 API、DOM 或脚本。GUI Agent 的目标是直接面对屏幕：看见按钮、输入框、菜单和状态，再通过鼠标键盘完成操作。

这有两个价值：

第一，很多软件没有稳定 API，或者 API 覆盖不到完整流程。GUI Agent 可以像人一样从界面入手。

第二，多模态模型可以处理截图、文档、网页和应用界面，把视觉理解和操作结合起来。

但它也有局限。GUI 操作容易受分辨率、语言、布局变化、弹窗、网络延迟影响。对生产流程来说，仍然需要权限控制、执行确认和错误回滚。

和 MCP 的关系

Agent TARS 强调 MCP 集成。MCP 的价值在于把浏览器、文件、命令行、数据库、内部服务等工具统一给 Agent 调用。

对复杂任务来说，单靠 GUI 点击不够稳定。更好的方式往往是：

能用 API 的地方走 API。
需要看页面状态时用视觉。
需要真实网页交互时用浏览器。
需要本地软件操作时用 GUI Agent。

UI-TARS-desktop 这类项目正在探索的，就是把这些能力放到同一个 Agent 栈里。

使用前要注意什么

第一，桌面 Agent 有执行风险。它能操作鼠标、键盘和浏览器，就必须限制权限，避免误操作文件、账号、支付或生产系统。

第二，远程电脑和远程浏览器操作要注意安全边界。不要把未认证的控制入口暴露到公网。

第三，多模态模型可能误识别界面。关键操作前最好有人确认，尤其是删除、提交、支付、发帖、交易等不可逆操作。

第四，模型供应商、API key 和本地数据要分开管理，不要把敏感凭据写进公开配置。

适合谁

UI-TARS-desktop 适合这些场景：

想研究 GUI Agent 和 Computer Use 的开发者。
需要让 AI 操作桌面应用或浏览器的团队。
想把 MCP 工具、浏览器操作和视觉模型组合起来的 Agent 开发者。
需要远程电脑 / 远程浏览器操作实验环境的用户。

如果只是简单网页自动化，普通 Playwright 或 Selenium 可能更直接。如果任务涉及桌面软件、多模态理解和复杂工具链，UI-TARS-desktop 更值得看。

小结

UI-TARS-desktop 的看点在于它不是只做一个“会点按钮”的桌面助手，而是把 GUI Agent、视觉模型、浏览器、CLI、MCP 和远程操作放进同一套多模态 Agent 栈。

这类项目代表了 AI Agent 的一个重要方向：从文本对话走向真实软件环境。但越接近真实操作，越需要权限管理、执行审计和人工确认。试用时建议先从低风险任务开始。

参考项目：https://github.com/bytedance/UI-TARS-desktop