当前位置: 首页 > article >正文

DroidBot-GPT: GPT-powered UI Automation for Android论文学习

本文介绍了DroidBot GPT,这是一种利用类似GPT的大型语言模型(LLM)自动化与Android移动应用程序交互的工具。给定所需任务的自然语言描述,DroidBot GPT可以自动生成并执行导航应用程序以完成任务的操作。它的工作原理是将应用程序GUI状态信息和智能手机屏幕上的可用操作转换为自然语言提示,并要求LLM选择操作。

除此之外,我们介绍如何自动生成自然语言来描述移动应用程序中的任务、状态和动作。通过建立LLM,我们能够为这些任务确定适当的行动顺序。我们认为,这项技术为在决策和机器人过程自动化中使用大型语言模型提供了一个有趣的机会。

可以看到本文章没有使用多模态模型,只把截图转化为了文字告诉GPT。

流程图如图所示

这里讲一下把UI界面转化为文本的一些细节:

给定一个图形用户界面,我们首先提取所有用户可见的元素并检查它们的属性。对于每个元素,我们生成一个提示“a view<name>that can…”,后面是图3所示的所有属性提示。

然后,我们将所有元素与前面的文本“当前状态具有以下UI视图和相应的操作,操作id在括号中”相结合。我们可以使用上述规则将UI树转换为自然语言句子。

这么做是为了避免文本过长。假如使用嵌套结构标准的表示UI元素的话,文本过长。

除了GUI描述和动作空间外,提示还应包括历史动作序列,以避免重复。因此,提示由任务、具有它们提供的动作选项的GUI元素、动作历史以及输出应该是单选还是要键入的句子的要求组成。

但是,这篇文章的工作也会被无文字描述的UI元素,模糊的UI关系和动作等东西gank。个人认为这归根结底是因为它没有直接使用截图,还是以纯文本的形式在描述UI,这样会损失大量信息,有很多东西干脆就表示不了,以后不可能使用这种方法了。


http://www.kler.cn/a/305591.html

相关文章:

  • Python网络爬虫与数据采集实战——什么是网络爬虫
  • 有什么初学算法的书籍推荐?
  • WebStorm 如何调试 Vue 项目
  • 大数据新视界 -- 大数据大厂之 Impala 性能优化:优化数据加载的实战技巧(下)(16/30)
  • 光流法与直接法在SLAM中的应用
  • 晨控RFID技术助力半导体制造业革新之路
  • C++学习笔记----7、使用类与对象获得高性能(一)---- 书写类(2)
  • 【编程基础知识】Java语言中字面字符和转义字符的区别
  • 自建,前端sdk库(react-utils-dev-sdk)
  • Pytorch2.4.0自动安装cudnn9.1??? pip安装cudnn方法
  • 使用SQLAlchemy进行数据库操作:编写一个高效的Python函数
  • SpringBoot和SpringMVC是什么关系?SpringBoot替代SpringMVC了吗?
  • 继图书管理项目遗留的问题修改
  • Google宣布所有英语语种的Gemini Live用户现可免费使用
  • 对游戏语音软件Oopz遭遇DDoS攻击后的一些建议
  • 深入了解 Python 的 argparse 模块:命令行参数处理的艺术
  • 828华为云征文 | 华为云X实例服务器上部署知识图谱项目的详细指南
  • 企微机器人:企业数字化转型的得力助手
  • dubbo一
  • 重拾java-------day2(下载,特点,运行过程,环境变量)
  • React 中的事件绑定与参数传递
  • 尚品汇-订单拆单、支付宝关闭交易、关闭过期订单整合(五十)
  • 《网络协议 - HTTP传输协议及状态码解析》
  • 伙房食堂电气安全新挑战:油烟潮湿环境下,如何筑起电气火灾“防火墙”?
  • Linux——分离部署,分化压力
  • Next.js 14 如何在服务端页面中使用客户端渲染组件