当前位置: 首页 > article >正文

论文阅读:三星-TinyClick

《Single-Turn Agent for Empowering GUI Automation》
赋能GUI自动化的单轮代理

摘要

我们介绍了一个用于图形用户界面(GUI)交互任务的单轮代理,使用了视觉语言模型Florence-2-Base。该代理的主要任务是识别与用户指令相对应的UI元素的屏幕坐标。

它在Screenspot和OmniAct上表现出强大的性能,同时保持了0.27B参数的紧凑规模和最低的延迟。

相关的改进来自于多任务训练和基于MLLM的数据增强。手动注释的语料库很少,但我们表明,MLLM增强可能产生更好的结果。

在Screenspot和OmniAct平台上,我们的模型超过了专门针对GUI的模型(如SeeClick)和大模型(如GPT-4V)。

模型:hugging-face.co/Samsung/TinyClick.

在这里插入图片描述

下游任务的示例命令。TinyClick 接收屏幕截图和用户指令,然后预测 UI 元素的边界框和动作。

训练情况

模型开源: hugging-face.co/Samsung/TinyClick
Florence2:一个定位和检测模型、通过同时使用带注释的图像和自然语言解释,允许适应跨领域。

训练方式

多任务训练

任务类别和目的

我们使用了公开可用的语料库来训练单轮对话智能体,这些语料库主要包含命令和位置(边界框)。
为了准备训练数据,我们使用了现有的MLLM注解或软件元数据,并且也使用我们自己的MLLM管道对数据进行了重新注解。
元素的描述、期望、位置和用途主要基于MLLM注解,而对象检测则使用了Android XML UI元数据。
实验验证了我们的方法的有效性,用更小、更快的模型超越了当前的基线。

任务名称

1.Element captioning
根据屏幕上的位置生成UI元素的描述、目的或操作预期。

2.Element location
根据视觉描述定位UI元素

3.Object detection
检测所有可点击的UI元素

4.Agent action
根据用户指令(command)定位要点击的UI元素或要点击的位置。

5.QA
根据屏幕内容QA

训练数据集

1.WaveUI
2.AMEX
3.Mind2Web
4.GUI Odyssey(not in train)
5.GUI Course
6.AndroidControl
7.ScreenQA
8.WebUI(not use)
9.OmniAct(validation set)

在这里插入图片描述

MLLM注解模型标注的方式

InternVL2-26B 标注数据 GUI Course的例子:

你的任务是生成一个预期 expectation ——与红色方框中的UI元素交互后会发生什么。

也就是说

输入是 image、prompt、 包含command和action的input json
输出是 output json

在这里插入图片描述
在这里插入图片描述

训练任务示例

同一个UI元素 可以 有多个不同的任务,类似 grounding和widget caption的意思

在这里插入图片描述


http://www.kler.cn/a/372669.html

相关文章:

  • 【AI论文】生成式视频模型是否通过观看视频学习物理原理?
  • 计算机毕业设计Python+卷积神经网络租房推荐系统 租房大屏可视化 租房爬虫 hadoop spark 58同城租房爬虫 房源推荐系统
  • SVG(Scalable Vector Graphics)全面解析
  • 医院挂号就诊系统设计与实现(代码+数据库+LW)
  • 【陕西省乡镇界】面图层shp格式arcgis数据乡镇名称和编码2020年wgs84坐标无偏移内容测评
  • llava 导入process报错
  • k8s之调动pod到指定节点与创建多容器pod并查找pod日志
  • 【设计模式】《Java 设计模式魔法:解锁高效编程的秘密武器》
  • Linux线程安全(二)条件变量实现线程同步
  • Logstash 迁移索引元数据(设置和映射)
  • Word中遇到的问题记录(页眉,页码分节符,跨页断行)
  • 《Web性能权威指南》-浏览器API与协议-读书笔记
  • 搭建普通 Spring IoC 项目
  • 白立新:人工智能爆发,倒逼人类走向“三体全能”
  • 阿里巴巴店铺商品API返回值中的商品分类与筛选条件
  • QT如何给视频打时标
  • PG数据库之事务处理
  • 域渗透AD渗透攻击利用 python脚本攻击之IPC连接 以及 python生成exe可执行程序讲解方式方法
  • 「Mac畅玩鸿蒙与硬件7」鸿蒙开发环境配置篇7 - 使用命令行工具和本地模拟器管理项目
  • Spring Boot 安全 API 构建:加密解密功能的卓越实践
  • Linux 上安装 conda 步骤实现
  • 一、ARMv8寄存器之通用、状态、特殊寄存器
  • String常量池
  • 【秋招笔试-支持在线评测】10.30花子秋招(已改编)-三语言题解
  • Codeforces Global Round 27 D.Yet Another Real Number Problem
  • 双11来了,云计算优惠大集合