当前位置: 首页 > article >正文

Identifying User Goals from UI Trajectories论文学习

通过UI轨迹识别用户的需求。

这篇论文同样聚焦于UI agent,只是思路比较特别。他们想要通过训练agent通过用户的行为轨迹反推出他们想要干什么的能力来锻炼agent识别,理解,使用UI的能力。同时这个训练项目本身也有一定的实际意义,可以把用户的意图记录下来哪天用来预测一下用户需要什么的(想打广告?)

同样的一组动作,用户可能会有很多种意图。这里是让模型去预测最可能的一种。

那么项目组是如何判定agent给出的用户意图与数据集里人工给出的意图一致呢?:

首先,论文假设数据集给出的UI轨迹是完全的,用户的目的已经达到了。因此,假如agent给出的用户意图是UI轨迹中还没有完成的事,那就是错的。

论文把用户的意图分为两类:寻找信息和做出改变。做出改变类型的任务意图就是要完成特定需求,,寻找信息类型的任务就是要给出用户需要的关键信息。

接下来是判断agent的描述和答案的匹配标准。首先我们要解释“满足”是什么意思。A满足B代表完成任务A那么任务B也完成了。可以理解为,A是一个描述更加详细的任务。假如agent的任务描述和答案相互满足,这当然是最好的(注意是在UI环境下,例如A任务说"大",B任务说“100”,要是UI认为100就是大,大就是100,它们也是等价的)。假如是一方满足另一方(也就是agent的描述太宽泛或太详细)那就叫部分满足。

事实上,该项目的人工审核的时候就是按照两个标准判断的:1是agent给出的用户意图是否满足标准答案,2是agent给出的是否和标准答案互相匹配。(可以看到项目组是比较倾向于让agent往详细了描述的,毕竟特别详细有一点奖励,太宽泛就完全没有了)

同时,该项目也有机器审核。这里使用了GPT4o,评价标准和人工一样。

最后在GPT4,Gemini 1.5pro,和人身上做了实验,表现是由坏到好。大家的错误主要集中在输出结果太宽泛,要么就是有误解(比如“选择评价最高的电影”理解为“选择《黑暗骑士》”)。而且fewshot表现和zeroshot差不多,可能是fewshot之后上下文信息太多了,模型把握不住。

感觉这种错误可以理解啊,这些行为本来就是摸棱两可的,不一定说一定要一模一样,言之有理即可吧。要么就在数据集里加上一大堆可能的意图,只要模型答对其中一个就行。还可以为不同的合理程度做评分,感觉比单一标准更好,这主要是数据集的锅。

当前的工作还有一些限制:语言局限,实际情况中用户可能会有多个意图或者原本的意图会被打断,用户的意图也可能因为一些影响而发生变化,或者干脆不太会用,正在试探。而且现有的数据集也没有做multitask的。


http://www.kler.cn/a/293792.html

相关文章:

  • 前端垂直居中的多种实现方式及应用分析
  • 【插件】多断言 插件pytest-assume
  • 4.4 软件设计:UML顺序图
  • 微服务架构面试内容整理-API 网关-Gateway
  • JSON-RPC-CXX深度解析:C++中的远程调用利器
  • 11张思维导图带你快速学习java
  • SpringBoot整合Minio及阿里云OSS(配置文件无缝切换)
  • MySQL · 性能优化 · 提高查询效率的实用指南(下)
  • 用Python导入CSV和Excel表格数据到Word表格
  • 启动 Spring Boot 项目时指定特定的 application.yml 文件位置
  • 无人机种类详解!!!
  • DPDK基础入门(四):从源码角度解析同步互斥机制
  • 乐凡三防|国产化浪潮下的三防平板
  • 在VMware虚拟机中编译文件的时候报错:找不到头文件ft2build.h
  • 【2024高教社杯全国大学生数学建模竞赛】ABCDEF题 问题分析、模型建立、参考文献及实现代码
  • (一)十分简易快速 自己训练样本 opencv级联haar分类器 车牌识别
  • (pycharm)安装python库函数Matplotlib步骤
  • 备份还原 本地所有的Docker 镜像并且在另一台机器上还原
  • 【LeetCode 121】买卖股票的最佳时机
  • 【深入理解SpringCloud微服务】深入理解nacos配置中心(三)——服务端启动与获取配置源码分析
  • UNI-APP 溢出隐藏显示省略号
  • Hive SQL 分组与连接操作详解
  • html css网页制作成品
  • java计算机毕设课设—企业员工信息管理系统(附源码、文章、相关截图、部署视频)
  • 【STM32开发】GPIO最全解析及应用实例
  • Linux磁盘管理(精要)