当前位置: 首页 > article >正文

论文阅读——MCAN(cvpr2019)

补充一下MCAN-VQA:

对图片的处理:首先输入图片到Faster R-CNN,会先设定一个判断是否检测到物体的阈值,这样动态的生成m∈[10,100]个目标,然后从检测到的对应的区域通过平均池化提取特征。第i个物体特征表示为:,所以一张图片就被表示为一个特征矩阵:

对问题的处理:首先分成词,最多分为14个词,然后用300-D GloVe word embeddings变成向量,然后过LSTM,使用LSTM所有单词的输出,得到问题特征矩阵:,n是分成的单词个数。

m和n可能不一样,用0填充到max(m,n)。

然后有了图片和问题的特征矩阵X和Y,送入下面的Deep Co-Attention Learning模块,由L层MAC层堆叠

这个MAC层分为两种,stacking和encoder-decoder,和transformer很像,大概如下图:

Deep Co-Attention Learning模块输出的,送入Multimodal Fusion and Output Classifier模块,这个模块有个两层的MLP,做attention reduction

α是学习到的权重。

然后线性多模态融合:

得到Z之后后面就是做分类,sigmoid。

一些实验结果:

所以SA(Y)-SGA(X,Y)比较好,Encoder-decoder比较好。


http://www.kler.cn/a/146584.html

相关文章:

  • 升级 SpringBoot3 全项目讲解 — 为什么 SpringBoot3 应该抛弃 Maven,搭配 Gradle 来使用?
  • 如何发布自己的第一个Chrome扩展程序
  • 学成在线_内容管理模块_创建模块工程
  • 【Vue3 入门到实战】1. 创建Vue3工程
  • 【数字化】华为-用变革的方法确保规划落地
  • 【如何从0到1设计测试用例使用Fiddler完成弱网测试】
  • Python多线程使用(一)
  • S32K3之看门狗(autosar框架中的watchdog)
  • Redis链表使用
  • 【Web安全】sql注入绕过技法
  • 探索 Vue 中的 bus.$emit:实现组件通信的强大工具
  • c#处理SQLSERVER 中image数量类型为空
  • actual combat 23 —— 通过序列化对字典字段生成字典str字段和对应字典标签值
  • JVM基础篇:垃圾回收
  • 十大排序算法中的插入排序和希尔排序
  • 【UE5】五大基类及其使用
  • 新闻研究导刊杂志社新闻研究导刊杂志新闻研究导刊编辑部2023年第21期目录
  • 第7章-使用统计方法进行变量有效性测试-7.3-列联表分析与卡方检验
  • 系列二十三、将一个第三方的类配置成bean的方式
  • 树莓派 cpolar实现内网穿透
  • git 泄露
  • SpringCloud实用-OpenFeign整合okHttp
  • Vue3:利用vueusejs键盘绑定
  • 创建可以离线打包开发的uniapp H5项目
  • MySQL数据库 编程入门
  • 【Python】使用globals()函数成功解决tkinter多个新窗口问题