UI-TARS Desktop

UI-TARS Desktop

开源
免费

UI-TARS Desktop 是字节跳动开源的基于 UI-TARS(视觉语言模型)的 GUI 代理应用程序,允许用户使用自然语言控制计算机。它集成了感知、推理、定位和记忆等关键组件于单一视觉语言模型中,实现了端到端的任务自动化,无需预定义工作流或手动规则。

产品截图

功能

全面的 GUI 理解能力

处理多模态输入(文本、图像、交互),构建对界面的连贯理解,支持实时监控动态 GUI 并准确响应变化

统一的动作空间

跨平台(桌面、移动和网络)的标准化动作定义,支持热键、长按和平台特定手势等额外操作

双系统推理

结合快速直觉响应和深思熟虑的高层规划,支持多步计划、反思和错误纠正,实现强大的任务执行能力

记忆系统

包含短期记忆用于捕获任务特定上下文,和长期记忆用于保留历史交互和知识,以改进决策制定

价格

开源版本

免费

  • Apache 2.0 许可证
  • 支持本地部署
  • 支持云端部署
  • 提供多种模型规格(2B、7B、72B)
  • 需要自行配置 API

适用场景

自动化任务执行

使用自然语言指令自动执行各种计算机任务,如浏览网页、发送推文等

跨平台操作

支持在不同平台(Windows、MacOS)上执行自动化操作,提供统一的用户体验