当前位置: 首页 > article >正文

Visual Genome数据集简介

参考

知乎文章两篇
Visual Genome数据集梳理
Visual Genome数据集简介

VG故事线

依据本人阅读参考文章后的理解,讲解关于VG的故事线

Visual Genome(VG)是斯坦福大学李飞飞组于2016年发布的大规模图片语义理解数据集,他们希望该数据集能像ImageNet那样推动图片高级语义理解方面的研究。

数据集包括了很多图片,每张图片都有四种标注:Region Description、Region Graph、Scene Graph、QA。其中"Scene Graph"如下图所示:

然而,统计发现数据集中的物体种类和关系种类都遵循长尾分布。也就是说,数据集存在bias。

因此,李飞飞后来的一个工作Scene Graph Generation by Iterative Message Passing提出了VG150,取最高频率的150个物体和50个关系。

然而这并没有缓解bias问题。在论文Neural Motifs: Scene Graph Parsing with Global Context中,作者提出了一个简单粗暴的baseline:利用object detector得到图上的object,针对每一对object,仅仅依据训练集的统计结果将出现最频繁的predicate作为预测结果。 然而,讽刺的是,这个很简单的baseline就已经比当时的许多模型效果好不少了。

所以,后来又有人提出了数据集VrR-VG,他们通过一些方式刻意避免bias问题。并用数据可视化衡量了这种分布的均匀性。

Neural Motifs: Scene Graph Parsing with Global Context

  • arxiv论文

介绍:
我们研究了如何生成视觉场景的结构化图形表示问题。我们的工作分析了模体在场景图中的作用:即经常出现的子结构。我们在Visual Genome数据集上提供了关于这些重复结构的新定量见解。我们的分析表明,物体标签高度预测关系标签,但反之则不然。我们还发现,在更大的子图中也存在重复模式:超过50% 的图包含涉及至少两个关系的模体。我们基于对象检测引入一个新baseline:根据给定标签预测对象对之间最频繁出现的关系,就像训练集中所看到的那样。该基线相对于以前最先进技术平均改善3.6%左右,并且在评估设置方面有所提高。然后,我们介绍了堆叠模体网络(Stacked Motif Networks),这是一种设计用来捕获场景图中更高阶模型特征并进一步改善强基线性能平均7.1%左右增益率新架构 。 我们代码可供使用

VrR-VG

见Visual Genome数据集梳理

如何衡量两个scene graph之间的相似性?

Scene graph是一种表示图像内容的结构化数据形式,其中节点表示物体或实体,边缘表示它们之间的关系。衡量两个scene graph之间的相似性通常涉及比较它们的节点和边缘之间的相似性。

以下是一些可能用于衡量两个scene graph相似性的指标:

  • Node overlap: Calculate the ratio of the intersection and union of nodes in two scene graphs. The higher the ratio, the more similar the two scene graphs.
  • Edge overlap: Calculate the ratio of the intersection and union of edges in two scene graphs. The higher the ratio, the more similar the two scene graphs.
  • Consistency: Calculate the number of matches between nodes and edges in two scene graphs. The higher the number of matches, the more similar the two scene graphs.
  • Shared object count: Calculate the number of common objects in two scene graphs. The higher the number, the more similar the two scene graphs.

另外,使用P/R也是可能的。


http://www.kler.cn/a/4303.html

相关文章:

  • python爬虫爬取淘宝商品比价||淘宝商品详情API接口
  • 1.17组会汇报
  • uniapp实现“到这儿去”、拨打电话功能
  • ASP.NET Core - .NET 6 以上版本的入口文件
  • 小米vela系统(基于开源nuttx内核)——openvela开源项目
  • ros2笔记-6.2 使用urdf创建机器人模型
  • SpringBoot 将PDF转成图片或Word
  • 08基于拉丁超立方法的风光场景生成与削减
  • Linux常用文件系统简述
  • 分享7个你可能还不知道的JS Web API,构建现代化网站轻松搞定
  • k8s证书过期的解决方案
  • 作业帮基于明道云开展的硬件业务数字化建设
  • 基于springboot实现医院信息管理系统【源码+论文】
  • Promise API
  • 036:cesium加载GPX文件,显示图形
  • MAL-PEG-FITC荧光素-聚乙二醇-马来酰亚胺的结构式
  • 【CSDN线上竞赛40】小结
  • 业务数据采集模块
  • SSM之SpringBoot day01
  • Python引用包路径查询
  • [leetcode] 动态规划
  • SpringBoot 如何将配置文件挂到 jar 包外面?
  • 内核编译(准备工作)
  • 27-队列练习-LeetCode232用栈实现队列
  • 阿里云服务器普通安全组和企业级安全组区别对比
  • Typora使用