当前位置：首页 > article >正文

【GMNER】Grounded Multimodal Named Entity Recognition on Social Media

article 2025/4/2 4:37:24

Grounded Multimodal Named Entity Recognition on Social Media

动机
解决方法
- 特征抽取
- 多模态索引设计
- 索引生成框架
- - Encoder
  - Decoder
- 实体定位、
- 实体-类型-区域三元组重建

出处：ACL2023
论文链接：https://aclanthology.org/2023.acl-long.508.pdf
code链接：https://github.com/NUSTM/GMNER
在这里插入图片描述

动机

目前的MNER任务主要把视觉特征作为额外的线索来帮助提升纯文本任务的性能，但是这有三点问题：一是MNER任务只提取实体-类型对，忽略了他们对应的目标框；二是提取的内容仅仅对构建纯文本的知识图谱有用，但是去无法建立多模态知识图谱；三是只识别实体类型对难以有效的进行试题消歧

解决方法

在这里插入图片描述

特征抽取

文本特征直接通过BART得到

对于图像特征，首先利用VinVL识别出所有候选物体，通过对这些候选物体排序后，选择top-k个物体并且将这些区域的平均池化特征作为嵌入特征，最后用线性层将特征维度映射到隐层维度

多模态索引设计

本任务的词表经过特殊设计，前两位1,2代表是否包含定位目标(yes1no2)，3-6代表person、location、organization、MISC，从7往后则是跟文本相关的token

预测过程中，模型预测一个三元组，包含<entity,if_groundable, type>，其中entity可能包含不止一个索引，所以在预测的过程中三元组的长度是大于等于3的，例如原文中提到的

The first triple [7,8,1,3]refers to {Michael Jordan, groundable, PER}, the second triple [12,2,4] denotes {Toronto, ungroundable, LOC}, and the third triple [19,20,21,1,5]refers to {the Fields Institute, groundable, ORG}.

索引生成框架

Encoder

将经过特征抽取后得到的文本特征和视觉特征拼接起来，得到编码器的输入，文本特征的维度为nxd，视觉特征的维度为Kxd，拼接后的输入维度为(n+K)xd

Decoder

在第i个时间步的解码过程中，解码器利用输入特征以及前i个输出作为输入，来预测第i个输出

在这里插入图片描述

其中

C= TokenEmbed （c） refers to the embeddings of two indicator indexes, four entity type indexes, and special tokens such as the “end of sentence” token

三个公式说明了两个问题：

1.解码器是自回归生成的过程，虽然要预测三元组，但是也要逐个预测，而不是三个一股脑输出

2.解码器在预测过程中将特殊的token C直接与文本输入进行拼接与隐层状态点乘，[C;H_T^e]所对应的token其实就代表了这里最终分类完要预测的目标，也就是只预测特殊token（定位、类型）和文本（实体），而视觉特征虽然被拼接到输入中，但是输出的时候不做任何预测，而要通过groundable token进行后续的实体定位

在这里插入图片描述

N=n+c，n表示文本分词后的token数量，c表示特殊token的数量

实体定位、

首先看原文这里的公式：

在这里插入图片描述

也是融合原始特征和经过编码器后的特征，而后预测当前肾蕨特征在所有预先提取的区域上的概率分布，通过h_k来控制当前实体是否要进行实体定位操作

对于预测有实体的输出，要接着级联一个MLP来进行进一步的定位判定，注意这个定位不是visual grounding中的坐标预测，而是利用视觉特征预先提取好的特征来匹配的操作，这个下面会详细说明：

正如图三中所展示的，视觉区域特征是提前用大模型抽取好的，那么这些抽取到的区域跟实体对应的真实区域可能不会完全重合，所以要结合二者重新设定预测目标。具体而言，计算预先抽取的区域与真值区域之间的交并比，大于0.5的情况下保留，小于0.5时设为0，这样能得到每个视觉区域与真值区域之间的IoU得分，将IoU得分的序列进行归一化则得到了每个视觉区域的目标分布g(z_k)，最后利用KL散度对这个目标分布进行预测（其实就是一个相似度最大化的匹配过程）
在这里插入图片描述

其中E是定位实体的数量。注意把这个损失与ViLBERT（直接重建图像内容，也是使用KL散度）对比来看，感兴趣的朋友可以看一下之前的博客:传送门在这里

训练阶段，将Decoder的目标损失L^{T和实体定位得到目标损失L}V相加得到分层索引模型的最终损失。

实体-类型-区域三元组重建

在推理阶段，给定多模态输入，利用模型集合得到自回归的索引预测结果集合，这个集合肯定是比原始输入序列长的，长度范围大概是[原始输入序列长度+2,原始序列长度*3]（考虑整个序列为一个实体，以及序列中每个token各成实体的两种极端）

利用输出索引序列，我们首先将每个索引转换为其原始含义，然后根据每个元素的索引跨度重建三元组（实体、可接地/不可接地、类型）。完整的算法如算法 1 所示

在这里插入图片描述

首先注意：E是定位实体的数量，忽略这一点看这个伪代码就很难看明白了

首先，对于输出序列Y，每次取一个索引y_i，每个三元组肯定先取到实体，所以索引长度肯定大于c，也就是执行else的操作，将y_i加入到e中；如果这个实体包含多个token，那么会一直执行这一步，直到都被加入到e中

当遇到特殊token时，y_i<c，也就是当前索引的值小于特殊token的长度，那么会首先判断是否存在于当前区域或类型有关的实体，如果有实体再判断e中的实体索引是否递增。因为默认先预测是否包含实体区域y_i，再预测实体类型y_{i+1}，所以只要当前的索引是1 or 2，那么下一个一定是3-6（这个设定不一定合理，但是伪代码就是这样的），所以不用判断，直接将实体e、区域y_i、类型y_{i+1}组成三元组加入到E中。执行完上述操作后，实体序列清空，i跳步

重复上述步骤，直到迭代结束

查看全文

http://www.kler.cn/a/315558.html