bytedance/UI-TARS-desktop 是字节开源的多模态 AI Agent 项目。它不是单一桌面应用,而是一套 Agent 栈,当前 README 中主要包含两个方向:Agent TARS 和 UI-TARS Desktop。
项目地址:https://github.com/bytedance/UI-TARS-desktop
截至写作时,GitHub API 显示这个仓库已有约 3.4 万 star,主要语言是 TypeScript,许可证为 Apache-2.0。README 对它的描述是“Open-Source Multimodal AI Agent Stack”。
Agent TARS 和 UI-TARS Desktop 的区别
README 把两个项目放在同一个表格里:
Agent TARS:通用多模态 AI Agent 栈,把 GUI Agent、视觉能力、终端、浏览器和产品工作流连接起来。UI-TARS Desktop:桌面应用,基于 UI-TARS 模型提供原生 GUI Agent 能力,可以操作本地或远程电脑、浏览器。
简单说,Agent TARS 更像通用 Agent 运行栈,UI-TARS Desktop 更像桌面端 GUI 操作入口。
Agent TARS 能做什么
Agent TARS 主要提供 CLI 和 Web UI。它的目标是让多模态模型通过 MCP 和各种工具完成更接近真人的任务流。
README 中列出的核心能力包括:
- 一键启动 CLI,支持 headful Web UI 和 headless server。
- 混合浏览器 Agent,可以用 GUI Agent、DOM 或混合策略控制浏览器。
- Event Stream,用于数据流追踪和调试。
- MCP 集成,可以挂载 MCP Server 接入真实工具。
快速启动示例:
|
|
也可以全局安装:
|
|
使用模型提供商运行:
|
|
UI-TARS Desktop 能做什么
UI-TARS Desktop 是桌面 GUI Agent。它基于 UI-TARS 和 Seed-1.5-VL / 1.6 系列模型,重点是让模型看懂屏幕并执行鼠标、键盘操作。
README 中列出的能力包括:
- 自然语言控制。
- 截图和视觉识别。
- 精确鼠标与键盘控制。
- 跨平台支持:Windows、macOS、Browser。
- 实时反馈和状态显示。
- 本地处理,强调隐私和安全。
示例任务包括修改 VS Code 设置、查看 GitHub issue、远程控制电脑或浏览器等。
为什么 GUI Agent 重要
传统自动化依赖 API、DOM 或脚本。GUI Agent 的目标是直接面对屏幕:看见按钮、输入框、菜单和状态,再通过鼠标键盘完成操作。
这有两个价值:
第一,很多软件没有稳定 API,或者 API 覆盖不到完整流程。GUI Agent 可以像人一样从界面入手。
第二,多模态模型可以处理截图、文档、网页和应用界面,把视觉理解和操作结合起来。
但它也有局限。GUI 操作容易受分辨率、语言、布局变化、弹窗、网络延迟影响。对生产流程来说,仍然需要权限控制、执行确认和错误回滚。
和 MCP 的关系
Agent TARS 强调 MCP 集成。MCP 的价值在于把浏览器、文件、命令行、数据库、内部服务等工具统一给 Agent 调用。
对复杂任务来说,单靠 GUI 点击不够稳定。更好的方式往往是:
- 能用 API 的地方走 API。
- 需要看页面状态时用视觉。
- 需要真实网页交互时用浏览器。
- 需要本地软件操作时用 GUI Agent。
UI-TARS-desktop 这类项目正在探索的,就是把这些能力放到同一个 Agent 栈里。
使用前要注意什么
第一,桌面 Agent 有执行风险。它能操作鼠标、键盘和浏览器,就必须限制权限,避免误操作文件、账号、支付或生产系统。
第二,远程电脑和远程浏览器操作要注意安全边界。不要把未认证的控制入口暴露到公网。
第三,多模态模型可能误识别界面。关键操作前最好有人确认,尤其是删除、提交、支付、发帖、交易等不可逆操作。
第四,模型供应商、API key 和本地数据要分开管理,不要把敏感凭据写进公开配置。
适合谁
UI-TARS-desktop 适合这些场景:
- 想研究 GUI Agent 和 Computer Use 的开发者。
- 需要让 AI 操作桌面应用或浏览器的团队。
- 想把 MCP 工具、浏览器操作和视觉模型组合起来的 Agent 开发者。
- 需要远程电脑 / 远程浏览器操作实验环境的用户。
如果只是简单网页自动化,普通 Playwright 或 Selenium 可能更直接。如果任务涉及桌面软件、多模态理解和复杂工具链,UI-TARS-desktop 更值得看。
小结
UI-TARS-desktop 的看点在于它不是只做一个“会点按钮”的桌面助手,而是把 GUI Agent、视觉模型、浏览器、CLI、MCP 和远程操作放进同一套多模态 Agent 栈。
这类项目代表了 AI Agent 的一个重要方向:从文本对话走向真实软件环境。但越接近真实操作,越需要权限管理、执行审计和人工确认。试用时建议先从低风险任务开始。