当前位置：首页 > article >正文

屏幕解析工具——OmniParser

article 2025/1/6 6:32:43

0 引言

OmniParser是微软开源的一种屏幕解析工具，提供了一种将用户界面截图解析为结构化元素的综合方法，通过此方法可以对UI界面进行可交互元素的提取和描述，然后将此结构化信息和任务指令，输入到大模型中，以增强大模型对用户界面的动作预测能力

论文： https://arxiv.org/pdf/2408.00203
项目： https://github.com/microsoft/OmniParser
huggingface： https://huggingface.co/microsoft/OmniParser

1 项目背景

大型视觉模型在理解和操作用户界面方面展现出巨大的潜力，但是现有的模型在实际表现中不尽人意，项目组认为原因是：让GPT-4V这类大模型同时完成屏幕元素解析和动作预测两个任务，对模型负担太重。

所以提出一种屏幕解析工具，来单独完成屏幕元素解析任务，只让大模型专注于动作预测任务，以此来增强大模型在各种用户任务中的动作预测能力，再与自动化工具结合形成更加强大的Agent系统

2 项目目标

开发一种通用的、跨平台的屏幕解析工具。

核心思想： 利用纯视觉信息来解析用户界面（UI）截图，将其转换成结构化的元素，而不依赖于任何特定平台的额外信息

3 项目效果

OmniParser显著提高了GPT-4V的动作预测性能，而且性能超过了使用HTML信息的GPT-4V模型，同时在完成移动导航任务时整体得分提高了4.7%

4 框架结构

在这里插入图片描述
当用户的界面UI图输入后：

经过一个交互图标检测模型（项目中使用的是微调后的YOLO V8），识别出那些地方是可交互的，并为其添加边界框和唯一ID。
对检测出来的可交互区域，使用一个功能描述模型（项目中使用的是微调后的BLIP-2）去描述该图标的功能
同时还有一个OCR模型（项目中使用的是Paddle OCR）去识别文字，并为其添加边界框和唯一ID，如果交互图标的边界框和文字边界框重叠度有90%，则共用一个框和ID
最后输出一个标注好的UI界面图，以及对应的功能描述和文本描述内容

5 微调的YOLO和BLIP

论文中未给出具体的数据集格式，下列左图是推测的微调YOLO的数据集格式，右图是微调BLIP的前后对比
在这里插入图片描述
微调后的BLIP-2由描述图标的形状、颜色，转为描述图标的功能

6 项目本地部署

6.1 创建新的conda环境并激活

conda create -n omni python=3.12
conda activate omni

6.2 git导入项目、下载依赖

git clone https://github.com/microsoft/OmniParser.git

会生成一个文件夹
在这里插入图片描述
里面有个requirements.txt，是我们所需要的依赖，进入该目录中，直接pip安装依赖

cd ./OmniParser
pip install -r requirements.txt

等待依赖安装

6.3 下载模型权重

创建一个新的文件夹用于保存模型权重，使用git和个git lfs拉取

git clone --depth 1 https://huggingface.co/microsoft/OmniParser .
git lfs install
git lfs pull

把下载下来的权重放到项目的weight文件夹中，结构如下：

weights/icon_detect

weights/icon_caption_florence

weights/icon_caption_blip2

然后在omni环境中，运行文件夹中的python程序：

python convert_safetensor_to_pt.py

出现下列结果则运行成功：
在这里插入图片描述

7 使用方法

7.1 界面解析

我这里使用的是文件夹里面的demo
在这里插入图片描述
可以在这个地方修改你要输入的图片：

最后输出标注好的UI界面图，和对应的功能描述与文字描述

7.2 大模型动作预测

下面是标注好的UI界面图
在这里插入图片描述
然后下面是我的提示词（功能描述太长，这里只展示局部）

this is my ui,i want to search for paper with lstm as the title,how should i operate?
there are the contents of the ui interface:['Text Box ID 0: | 8demo',
 'Text Box ID 1: x|A #t',
 'Text Box ID 2: xX arXiv.org e-Print archive',
 'Text Box ID 3: +',
 'Text Box ID 4: C',
 'Text Box ID 5: 6htt ps:/arxiv.org',
 'Text Box ID 6:  Algorithm Visu..',
 ......]

大模型输出结果：
这里是用的通义大模型
在这里插入图片描述

8 方案缺陷

8.1 不支持中文

解决方法： 重新制作中文数据集进行微调

8.2 当解析结果包含重复图标/文本时，大模型可能无法做出正确的预测

在这里插入图片描述
如上图那样有重复的图标时，大模型可能无法理解应该操作哪一个
解决方法： 对重复元素添加更细致的描述，以便让大模型意识到重复元素的存在（原文用的potential，即该方法未经验证）

8.3 无法识别文本内容中的超链接

解决方法： 训练一个模型将 OCR 和可交互区域检测组合成一个模块，从而可以检测可点击的文本/超链接。

8.4 图标误解

在这里插入图片描述
把上图（局部）输入给大模型，想点击“更多”，理论上应该点击BOX_26，但是实际上功能描述模型把BOX_26描述为“缓冲/加载”，导致大模型可能无法准确的预测动作
解决方法： 训练知道图像完整”上下文”的图标功能描述模型。（原文用的potential，即该方法未经验证）