Self-Operating Computer

Self-Operating Computer

开源
免费

使多模态模型能够操作计算机的框架。使用与人类操作员相同的输入和输出,模型查看屏幕并决定一系列鼠标和键盘操作以达到目标。

产品截图

功能

多模态兼容性

为各种多模态模型设计,当前集成了GPT-4o、o1、Gemini Pro Vision、Claude 3和LLaVa

跨平台支持

兼容Mac OS、Windows和Linux(安装了X服务器)

屏幕交互

模型可以查看屏幕并决定鼠标和键盘操作序列来达成目标

价格

开源版本

免费

  • MIT许可证
  • 需要自行配置OpenAI API密钥

适用场景

自动化界面测试

自动执行用户界面测试,模拟人类操作

辅助功能

帮助行动不便的用户操作计算机