使多模态模型能够操作计算机的框架。使用与人类操作员相同的输入和输出,模型查看屏幕并决定一系列鼠标和键盘操作以达到目标。
为各种多模态模型设计,当前集成了GPT-4o、o1、Gemini Pro Vision、Claude 3和LLaVa
兼容Mac OS、Windows和Linux(安装了X服务器)
模型可以查看屏幕并决定鼠标和键盘操作序列来达成目标
免费
自动执行用户界面测试,模拟人类操作
帮助行动不便的用户操作计算机