当前位置: 首页 > article >正文

SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents论文学习

首先是惯例强调一下自己的工作是基于视觉的,不是那种拿一个html文件或者UI结构树给模型让他操作的工作。然后提出了一个很有意思的观点,认为Grounding能力(定位能力)对模型表现的影响非常大。

主要novelty就这几个:

我们的主要贡献如下:•我们开发了一个统一的可视化GUI代理SeeClick,它仅依靠界面截图在不同的GUI平台上执行点击和打字操作。

•我们前瞻性地探索了可视化GUI代理的GUI基础,并通过提出的GUI基础预培训策略增强了SeeClick。

•我们创建了一个逼真的GUI基础基准ScreenSpot,包含来自各种GUI平台的1200多条指令。

•ScreenSpot和三个代理任务的实验结果表明,增强代理的接地能力是提高下游代理任务性能的关键。

接下来文章提到了grounding能力的一些细节。文章提到从前的很多工作会把图像分成很多部分然后训练模型识别目标在哪一个块里。本文则要求模型直接用自然语言方式输出目标,然后计算与真实结果的交叉熵。

至于项目中构建的数据集ScreenSpot,作者是网络爬取了web数据,从开源数据集中充足了一部分手机的轨迹数据,还照搬了一部分开源数据(LLAVA的常规数据)。

“Web UI具有跨网站的各种布局和设计风格,是训练LVLM在不同GUI上下文中的一般识别和基础能力的理想选择。我们从最新的Common Crawl存储库中收集了大约30万个网页,作为我们的web UI培训数据。对于每个网页,我们从HTML代码中收集两种类型的元素,如图3所示:(1)显示可见文本内容的元素;以及(2)具有特殊“title”属性的元素,在悬停时显示描述性文本。这种方法确保我们收集一系列可交互的元素y及其相应的指令x,同时包含广泛的文本和图标元素。除了基础任务p(y|s,x)外,我们还包括基于坐标预测文本描述的web OCR任务p(x|s,y)。”

“移动数据。对于移动UI,我们包括三种类型的数据:小部件字幕、移动UI基础和移动UI摘要。小部件字幕数据集为移动UI元素提供语言描述;例如,音乐播放器界面上播放按钮的描述“播放音乐”。”

最后还照搬了一部分开源数据(LLAVA的常规数据)

模型训练方面,文章的基础模型是Qwen-VL,在上面的数据集训练了1个epoch,用了LoRA。

实验部分,首先实验定位能力,与各种模型battle 巴拉巴拉,然后又是在三大件上面进行传统功夫GUI agent实力比拼,结果如下:

接下来是一些训练细节,做ppt的时候再看


http://www.kler.cn/a/324090.html

相关文章:

  • [产品管理-82]:《产品经理从入门到精通》产品经理的基本思维与核心思想
  • Opengl光照测试
  • 编译原理(手绘)
  • 麒麟系统下docker搭建jenkins
  • git使用及上线流程(仅为我工作中常用)
  • dockers+Jenkins+git+自动化框架
  • socket编程描述tcp的三次握手
  • Postman/Jmeter接口测试
  • MATLAB中的并行计算:提升性能的策略与实践
  • 有关若依菜单管理的改造
  • 动手学深度学习(李沐)PyTorch 第 4 章 多层感知机
  • golang Unicode api接口
  • 【C++】vector 常用成员函数的模拟实现
  • 使用Go语言的互斥锁(Mutex)解决并发问题
  • Goland的使用
  • 青动CRM-仓储云V1.1.2
  • 第十七节 鼠标的操作与相应
  • Three.js粒子系统与特效
  • 16年408-数据结构
  • C0003.用C++开发Qt界面,针对无边框界面,实现界面可任意拖动
  • 单片机配置IO口输出模式(IO口依然可以读取电平变化)
  • 函数内部的 arguments 变量特性,属性,如何将他转换为数组
  • AVL树(平衡二叉树)的介绍以及相关构建
  • Augular 学习步骤建议
  • 并查集 (Union-Find) :从基础到优化
  • C++学习笔记(35)