当前位置：首页 > article >正文

图文检索（37）：局部对齐Stacked Cross Attention for Image-Text Matching

article 2025/1/3 4:49:50

Stacked Cross Attention for Image-Text Matching

摘要
引言
方法
- 3.1 stacked cross attention
- 3.2 alignment objective
- 3.3 representing images with bottom-up attention
- 3.4 representing sentences
结论

发布时间（2018 ECCV）

标题：用于图像文本匹配的堆叠交叉注意力

摘要

1）全局对齐：先前的工作要么简单地汇总所有可能的区域和单词对的相似性，而不对更重要和更不重要的单词或区域进行差异化关注
2）不可解释：要么使用多步骤注意过程来捕获有限数量的语义对齐，这不太容易解释
3）可解释性：在本文中，我们提出了堆叠交叉注意力来发现使用图像区域和句子中的单词作为上下文的完整潜在对齐并推断图像文本相似性

引言

我们引入了一种新颖的堆叠交叉注意力机制，它能够分两个阶段关注图像和句子的上下文。
1）给定一张图片和一个句子，它首先关注句子中与每个图像区域相关的单词，然后将每个图像区域与句子中关注的信息进行比较，以决定图像区域的重要性。
2）首先关注每个单词的图像区域，然后决定对每个单词给予更多或更少的关注

自下而上注意力

方法

将单词和图像区域映射到一个公共嵌入空间，以推断整个图像和完整句子之间的相似性。
我们从自下而上的注意力开始，检测图像区域并将其编码为特征。此外，我们将句子中的单词连同句子上下文一起映射到特征。然后，我们应用堆叠交叉注意力通过对齐图像区域和单词特征来推断图像句子的相似性。
我们首先在第 3.1 节中介绍堆叠交叉注意力，并在
第 3.2 节中介绍学习对齐的目标。然后，我们分别在
第 3.3 节和第 3.4 节中
详细介绍图像和句子表示。

3.1 stacked cross attention

image-text stacked cross attention（使用文本表示图像）

sij-代表这个 token 与k个region的相似度
aij是每一个region i 对于n个token的相似性分布
ai = aijej 也就是使用 token 组合来表示 rejion

region 通过 token 组合表示
region 的原始表示
两者之间的关系是 R

而整体 image 和 text 的相似度可以使用两种方式计算：
1）利用 LSE 表示
并且通过超参数λ2来控制最相关 R 的重要性
2）简单的平均池化 AVG

text-image stacked cross attention（使用图像表示文本）
同样
aj = aijvi 也就是使用 region 组合来表示 token
整体相似度两种计算
1）LSE
2）AVG

除了上面的计算文本图像相似度的方式，还有 sum-max，也就是从相似度矩阵的每一行取出最大值相加/每一列取出最大值相加，得到图像文本的总相似度

3.2 alignment objective

这里使用的是 triplet ranking loss
并且使用最难负样本

3.3 representing images with bottom-up attention

图像特征区域的表示是利用目标检测出来的 object 进行表示

3.4 representing sentences

还是双向GRU

结论

审视先前的工作以确认推断图像区域和单词之间潜在对应关系的重要性。此外，我们展示了如何利用学习到的 Stacked Cross Attention 为此类视觉语言模型提供更多可解释性。

http://www.kler.cn/a/459062.html

相关文章：

SSRF服务端请求Gopher伪协议白盒测试

windows下vscode使用msvc编译器出现中文乱码

idea 开发Gradle 项目

9.若依-自定义表单构建

在C#中，委托的协变和逆变在底层如何实现

GPU 进阶笔记（二）：华为昇腾 910B GPU

【从0到0.5】基于STM32F427+DP83848+FreeRTOS+LWIP+CubeMx+Keil搭建TCP服务端与客户端

基于JDK 17 编写的Java常用工具类

Docker+Portainer 离线安装

数学建模助力干细胞研究，配体纳米簇如何影响干细胞命运

排序算法简单问题（Java）

Axture 实现一个简单的父子菜单

win32汇编环境下，提取对话框程序中，listview列表控件里的内容示例

ES IK分词字典热更新

从0开始的Opencv之旅（到尝试构建一个图像编辑器）：0，opencv demo

Kotlin 协程基础知识总结五 —— 通道、多路复用、并发安全

存储进阶笔记（二）：Linux 存储栈：从 Device Mapper、LVM 到文件系统（2024）

抽奖2（信奥）

springboot515基于SpringBoot的宠物爱心组织管理系统(论文+源码)_kaic

Python爬虫(selenium)从网站获取信息并存入数据库(mysql)

SCOPE：面向大语言模型长序列生成的双阶段KV缓存优化框架

【2024年-9月-14日-开源社区openEuler实践记录】PM4OSSP-PROXY

前端页面展示本电脑的摄像头，并使用js获取摄像头列表

css 类名

Tomcat：开源Web服务器的中流砥柱