当前位置: 首页 > article >正文

屏幕解析工具——OmniParser

0 引言

OmniParser是微软开源的一种屏幕解析工具,提供了一种将用户界面截图解析为结构化元素的综合方法,通过此方法可以对UI界面进行可交互元素的提取和描述,然后将此结构化信息和任务指令,输入到大模型中,以增强大模型对用户界面的动作预测能力

论文: https://arxiv.org/pdf/2408.00203
项目: https://github.com/microsoft/OmniParser
huggingface: https://huggingface.co/microsoft/OmniParser

1 项目背景

大型视觉模型在理解和操作用户界面方面展现出巨大的潜力,但是现有的模型在实际表现中不尽人意,项目组认为原因是:让GPT-4V这类大模型同时完成屏幕元素解析动作预测两个任务,对模型负担太重。

所以提出一种屏幕解析工具,来单独完成屏幕元素解析任务,只让大模型专注于动作预测任务,以此来增强大模型在各种用户任务中的动作预测能力,再与自动化工具结合形成更加强大的Agent系统

2 项目目标

开发一种通用的、跨平台的屏幕解析工具。

核心思想: 利用纯视觉信息来解析用户界面(UI)截图,将其转换成结构化的元素,而不依赖于任何特定平台的额外信息

3 项目效果

OmniParser显著提高了GPT-4V的动作预测性能,而且性能超过了使用HTML信息的GPT-4V模型,同时在完成移动导航任务时整体得分提高了4.7%

4 框架结构

在这里插入图片描述
当用户的界面UI图输入后:

  1. 经过一个交互图标检测模型(项目中使用的是微调后的YOLO V8),识别出那些地方是可交互的,并为其添加边界框和唯一ID。
  2. 对检测出来的可交互区域,使用一个功能描述模型(项目中使用的是微调后的BLIP-2)去描述该图标的功能
  3. 同时还有一个OCR模型(项目中使用的是Paddle OCR)去识别文字,并为其添加边界框和唯一ID,如果交互图标的边界框和文字边界框重叠度有90%,则共用一个框和ID
  4. 最后输出一个标注好的UI界面图,以及对应的功能描述和文本描述内容

5 微调的YOLO和BLIP

论文中未给出具体的数据集格式,下列左图是推测的微调YOLO的数据集格式,右图是微调BLIP的前后对比
在这里插入图片描述
微调后的BLIP-2由描述图标的形状、颜色,转为描述图标的功能

6 项目本地部署

6.1 创建新的conda环境并激活

conda create -n omni python=3.12
conda activate omni

6.2 git导入项目、下载依赖

git clone https://github.com/microsoft/OmniParser.git

会生成一个文件夹
在这里插入图片描述
里面有个requirements.txt,是我们所需要的依赖,进入该目录中,直接pip安装依赖

cd ./OmniParser
pip install -r requirements.txt

等待依赖安装

6.3 下载模型权重

创建一个新的文件夹用于保存模型权重,使用git和个git lfs拉取

git clone --depth 1 https://huggingface.co/microsoft/OmniParser .
git lfs install
git lfs pull

把下载下来的权重放到项目的weight文件夹中,结构如下:

weights/icon_detect

weights/icon_caption_florence

weights/icon_caption_blip2

然后在omni环境中,运行文件夹中的python程序:

python convert_safetensor_to_pt.py

出现下列结果则运行成功:
在这里插入图片描述

7 使用方法

7.1 界面解析

我这里使用的是文件夹里面的demo
在这里插入图片描述
可以在这个地方修改你要输入的图片:
在这里插入图片描述
最后输出标注好的UI界面图,和对应的功能描述与文字描述
在这里插入图片描述

7.2 大模型动作预测

下面是标注好的UI界面图
在这里插入图片描述
然后下面是我的提示词(功能描述太长,这里只展示局部)

this is my ui,i want to search for paper with lstm as the title,how should i operate?
there are the contents of the ui interface:['Text Box ID 0: | 8demo',
 'Text Box ID 1: x|A #t',
 'Text Box ID 2: xX arXiv.org e-Print archive',
 'Text Box ID 3: +',
 'Text Box ID 4: C',
 'Text Box ID 5: 6htt ps:/arxiv.org',
 'Text Box ID 6:  Algorithm Visu..',
 ......]

大模型输出结果:
这里是用的通义大模型
在这里插入图片描述

8 方案缺陷

8.1 不支持中文

解决方法: 重新制作中文数据集进行微调

8.2 当解析结果包含重复图标/文本时,大模型可能无法做出正确的预测

在这里插入图片描述
如上图那样有重复的图标时,大模型可能无法理解应该操作哪一个
解决方法: 对重复元素添加更细致的描述,以便让大模型意识到重复元素的存在(原文用的potential,即该方法未经验证

8.3 无法识别文本内容中的超链接

解决方法: 训练一个模型将 OCR 和可交互区域检测组合成一个模块,从而可以检测可点击的文本/超链接。

8.4 图标误解

在这里插入图片描述
把上图(局部)输入给大模型,想点击“更多”,理论上应该点击BOX_26,但是实际上功能描述模型把BOX_26描述为“缓冲/加载”,导致大模型可能无法准确的预测动作
解决方法: 训练知道图像完整”上下文”的图标功能描述模型。(原文用的potential,即该方法未经验证


http://www.kler.cn/a/391155.html

相关文章:

  • MYSQL--------选择合适的数据类型
  • QML自定义滑动条Slider的样式
  • 《学校一卡通管理系统》数据库MySQL的设计与实现
  • Python自学 - 函数式编程初步(lambda、map、filter)
  • 【网络安全 | 漏洞挖掘】JS Review + GraphQL滥用实现管理面板访问
  • 2025年1月4日蜻蜓q旗舰版st完整开源·包含前后端所有源文件·开源可商用可二开·优雅草科技·优雅草kir|优雅草星星|优雅草银满|优雅草undefined
  • vue内置方法总结
  • Qt中MainWindow的isVisible和isActiveWindow有什么区别
  • 基本和引用数据类型以及对象字面量(day14)
  • ubuntu24.04播放语音视频
  • 启动本地开发环境(自带热启动)yarn serve
  • Pytorch学习--神经网络--完整的模型验证套路
  • MacOS编译hello_xr——记一次CMake搜索路径限制导致的ANDROID_NATIVE_APP_GLUE not found
  • 网络安全-Linux基础(2)
  • 电子应用产品设计方案-5:多功能恒温控制器设计
  • 【主机游戏】正当防卫3游戏介绍
  • uniapp和uview-plus组件在项目中向后端发起请求的封装
  • 【蓝桥等考C++真题】蓝桥杯等级考试C++组第13级L13真题原题(含答案)-统计数字
  • 用轻量云服务器搭建一个开源的商城系统,含小程序和pc端
  • Java中的不可变集合:性能与安全并重的最佳实践
  • 力扣 LeetCode 977. 有序数组的平方(Day1:数组)
  • qt ui设计案例--登录界面
  • 【AI日记】24.11.08 Knowledge Graphs for RAG (知识图谱,Neo4j,Cypher)
  • Go/Golang语言各种数据类型内存字节占用大小和最小值最大值
  • NVR批量管理软件/平台EasyNVR多个NVR同时管理基于端-边-云架构的智能视频融合云平台
  • golang分布式缓存项目 Day1 LRU 缓存淘汰策略