当前位置：首页 > article >正文

DroidBot-GPT: GPT-powered UI Automation for Android论文学习

article 2025/1/11 18:39:13

本文介绍了DroidBot GPT，这是一种利用类似GPT的大型语言模型（LLM）自动化与Android移动应用程序交互的工具。给定所需任务的自然语言描述，DroidBot GPT可以自动生成并执行导航应用程序以完成任务的操作。它的工作原理是将应用程序GUI状态信息和智能手机屏幕上的可用操作转换为自然语言提示，并要求LLM选择操作。

除此之外，我们介绍如何自动生成自然语言来描述移动应用程序中的任务、状态和动作。通过建立LLM，我们能够为这些任务确定适当的行动顺序。我们认为，这项技术为在决策和机器人过程自动化中使用大型语言模型提供了一个有趣的机会。

可以看到本文章没有使用多模态模型，只把截图转化为了文字告诉GPT。

流程图如图所示

这里讲一下把UI界面转化为文本的一些细节：

给定一个图形用户界面，我们首先提取所有用户可见的元素并检查它们的属性。对于每个元素，我们生成一个提示“a view<name>that can…”，后面是图3所示的所有属性提示。

然后，我们将所有元素与前面的文本“当前状态具有以下UI视图和相应的操作，操作id在括号中”相结合。我们可以使用上述规则将UI树转换为自然语言句子。

这么做是为了避免文本过长。假如使用嵌套结构标准的表示UI元素的话，文本过长。

除了GUI描述和动作空间外，提示还应包括历史动作序列，以避免重复。因此，提示由任务、具有它们提供的动作选项的GUI元素、动作历史以及输出应该是单选还是要键入的句子的要求组成。

但是，这篇文章的工作也会被无文字描述的UI元素，模糊的UI关系和动作等东西gank。个人认为这归根结底是因为它没有直接使用截图，还是以纯文本的形式在描述UI，这样会损失大量信息，有很多东西干脆就表示不了，以后不可能使用这种方法了。

http://www.kler.cn/a/305591.html

相关文章：

Vue.config.productionTip = false 不起作用的问题及解决

如何在 Ubuntu 22.04 上安装 Nagios 服务器教程

如何设计一个注册中心？以Zookeeper为例

抢占欧洲电商高地，TikTok 运营专线成 “秘密武器”

Python教程丨Python环境搭建（含IDE安装）——保姆级教程！

SpringBoot之核心配置

C++学习笔记----7、使用类与对象获得高性能（一）---- 书写类（2）

【编程基础知识】Java语言中字面字符和转义字符的区别

自建，前端sdk库（react-utils-dev-sdk）

Pytorch2.4.0自动安装cudnn9.1？？？ pip安装cudnn方法

使用SQLAlchemy进行数据库操作：编写一个高效的Python函数

SpringBoot和SpringMVC是什么关系?SpringBoot替代SpringMVC了吗?

继图书管理项目遗留的问题修改

Google宣布所有英语语种的Gemini Live用户现可免费使用

对游戏语音软件Oopz遭遇DDoS攻击后的一些建议

深入了解 Python 的 argparse 模块：命令行参数处理的艺术

828华为云征文 | 华为云X实例服务器上部署知识图谱项目的详细指南

企微机器人：企业数字化转型的得力助手

dubbo一

重拾java-------day2(下载，特点，运行过程，环境变量)

React 中的事件绑定与参数传递

尚品汇-订单拆单、支付宝关闭交易、关闭过期订单整合（五十）

《网络协议 - HTTP传输协议及状态码解析》

伙房食堂电气安全新挑战：油烟潮湿环境下，如何筑起电气火灾“防火墙”？

Linux——分离部署，分化压力

Next.js 14 如何在服务端页面中使用客户端渲染组件