UI-TARS Desktop 是字节跳动开源的基于 UI-TARS(视觉语言模型)的 GUI 代理应用程序,允许用户使用自然语言控制计算机。它集成了感知、推理、定位和记忆等关键组件于单一视觉语言模型中,实现了端到端的任务自动化,无需预定义工作流或手动规则。
处理多模态输入(文本、图像、交互),构建对界面的连贯理解,支持实时监控动态 GUI 并准确响应变化
跨平台(桌面、移动和网络)的标准化动作定义,支持热键、长按和平台特定手势等额外操作
结合快速直觉响应和深思熟虑的高层规划,支持多步计划、反思和错误纠正,实现强大的任务执行能力
包含短期记忆用于捕获任务特定上下文,和长期记忆用于保留历史交互和知识,以改进决策制定
免费
使用自然语言指令自动执行各种计算机任务,如浏览网页、发送推文等
支持在不同平台(Windows、MacOS)上执行自动化操作,提供统一的用户体验