综述一部分Knowledge Graphs Meet Multi-Modal Learning:A Comprehensive Survey
A. MMKG Representation Learning
目前主流的MMKG表示学习方法主要集中在a -MMKG上,因为它们与传统kg的相似性允许更具适应性的范式转换。这些在mmkg内整合实体模式的方法一般分为两类,有时在各种框架内重叠。
(i)后期融合[55]、[65]、[415]、[425]、[447]、[476]、[477]、[477]方法强调模态交互和权重分配,通常在输出生成之前使用求和、串联、mlp或门通机制进行特征聚合。MKGRL-MS[477]制作了独特的单模态嵌入,利用多个头部的自关注来确定每个模态对语义构成的贡献,并对MMKG实体表示的加权多模态特征求和。MMKRL[447]在统一的翻译语义空间中学习跨模态嵌入,通过连接合并每个实体的模态嵌入。最近基于transformer的方法[65],[425]为多模态实体对齐中的实体表示引入了细粒度的实体级模态偏好。DuMF[476]是一种双轨方法,在每条轨道上使用双线性层进行特征投影,使用注意块进行模态偏好学习,并使用门网络将这些特征集成到统一的表示中。
(ii)早期融合[62]、[387]、[454]、[454]、[478]、[479]方法在初始阶段整合多模态特征,实现适合复杂推理任务的更深层次模态交互。这种方法促进了统一和有效的实体表示,在与其他模型集成的过程中增强了它们的兼容性。CMGNN[478]首先使用MLP将实体模态归一化为统一的嵌入,然后通过与扰动负样本的对比对其进行细化。MMRotatH[479]利用门通编码器合并文本和结构数据,在基于旋转动态的KGE框架中过滤无关信息。最近的研究[62]、[68]、[387]、[454]利用BERT和ViT等(V) plm进行多模态数据集成。他们将图形结构、文本和图像格式化为与LMs兼容的序列或密集嵌入,从而利用LMs的推理能力和嵌入其参数中的知识来支持诸如多模态链接预测之类的任务。
D. MMKG Inference
MMKG数据固有地包含缺失的元素、错误和矛盾,这使得推断成为完成KG的关键任务。这一阶段是继MMKG构建周期中的提取和融合之后,旨在增强模型的推理能力并加深其对KG整体知识的理解。
1) Multi-modal Knowledge Graph Completion:
多模态知识图补全(Multimodal Knowledge Graph Completion, MKGC)在挖掘现有知识库中缺失的三元组中起着至关重要的作用,该过程包括三个子任务:实体预测、关系预测和三元分类,定义如下:
方法:值得注意的是,目前大多数MKGC任务集中在实体预测,通常被称为链接预测。主流的MKGC方法主要遵循两条路径:基于嵌入和基于微调(ft)的方法。考虑到MKGC和KGC方法之间的交集,本节还将讨论几种典型的KGC技术,以便更深入地了解MKGC。
基于嵌入的方法是从传统的KGE技术发展而来的[79],[361],使其适应多模态数据,从而形成多模态实体嵌入。它们分为模态融合、模态集合和负采样方法:
(i) 模态融合方法[459]、[477]、[535]将实体的多模态嵌入与其结构嵌入相结合,用于三重似然估计。早期的研究,如IKRL[51],使用多个基于transe的评分函数[79]进行模态交互。随后的发展,如TBKGC[440]、TransAE[442]和MKBE[441]进一步纳入了文本数字属性等模式。RSME[443]引入了自适应模态信息选择的门。OTKGE[445]为多模态融合应用了最优传输,而CMGNN[453]实现了具有跨模态对比学习的多模态GNN。HRGAT[455]构建了一个用于多模态实体表示的超节点关系图。CamE[452]为生物KGs引入了三重共同关注模块,VISITA[68]开发了一个基于转换器的框架,该框架利用MKGC的关系和三级多模态信息。
(ii)模态集成方法使用不同的模态训练单独的模型,将它们的输出结合起来进行最终预测。例如,MoSE[446]利用结构、文本和视觉数据来训练三个KGC模型,并使用集成策略进行联合预测。类似地,IMF[450]提出了一种交互模型来实现模态解纠缠和纠缠,从而做出稳健的预测。
(iii)模态感知负抽样涉及生成假三元组,以增强模型区分准确和潜在错误KG三元组的能力。在KG嵌入训练过程中,模型在正样本和负样本的指导下,将实体和关系映射到向量,其有效性依赖于负样本的策略选择和质量,以平衡正样本和负样本之间的得分。KGC中的多模态数据通过为选择更高质量的负样本提供额外的背景,从而增强了传统的负三重抽样[79],从而解决了KGC模型训练中的关键性能瓶颈。具体来说,MMKRL[447]向MKGC引入了对抗性训练,在模态嵌入中添加了扰动。这是使用对抗方法来增强MKGC模型的先驱。在此之后,VBKGC[444]和MANS[448]开发了细粒度的视觉负采样,以更好地将视觉与结构嵌入结合起来,以进行更细致的比较训练。MMRNS[449]引入了一种关系增强的负采样方法,利用可微策略自适应地选择高质量的负样本。
基于ft的方法利用预训练的Transformer模型,如BERT[175]和VisualBERT[179],利用它们对MKGC的深刻多模态理解。这些方法将MMKG三元组转换为令牌序列,并将其输入plm[536]。
(i)判别策略将KGC任务建模为分类问题,使用PLMs编码文本信息。KGBERT[317]是该领域的先驱,对BERT进行了三重分类的微调,基于模型的正概率评估三重合理性。随后的方法引入了额外的任务,如关系分类和三重排序[537]-[539],或者探索KGC[540] -[542]中的提示调优。基于ft的MKGC方法比传统的KGC方法更强调模态融合。其中,MKGformer[387]采用混合Transformer进行多级多模态融合,将MKGC作为MLM任务,通过结合实体描述、关系和图像来预测掩面实体。SGMPT[454]通过图结构编码器和双策略融合模块增加结构化数据集成,扩展了MKGformer的能力。
(ii)生成模型将KGC框架为序列到序列的任务[543]-[545],使用plm进行文本生成。KGLLaMA[546]和KoPA[547]探讨了llm与指令调优在生成式KGC中的应用,这是MKGC中一个相对未被探索的方法,具有广阔的进一步探索领域。
资源和基准:(i)初始MKGC数据集:早期MKGC研究主要利用已建立的KG基准,如WordNet (WN9-IMG [51], WN18-IMG [443]), MovieLens100K [441], YAGO-10[441]和FreeBase (FB)[440],扩展了多模态信息。例如,WN9-IMG合并了来自ImageNet的图像。(ii)系统MKGC数据集:Liu等[54]通过添加网络抓取图像和数值模态数据,将FB15K、DB15K和YAGO15K转换为MMKGs。我们使用表11中列出的这一系列数据集对这些(M)KGC方法进行基准测试。Xu等[449]基于WikiData和YAGO构建了MKG-W和MKG-Y,其中图像通过网络搜索引擎获得。(iii)多面MKGC数据集:最近的mmkg包括更广泛的模态信息,代表了向更复杂数据集的发展。例如,MMpedia[67]是一个可扩展的高质量MMKG,使用基于DBpedia[12]的新型管道开发,旨在过滤掉非视觉实体,并通过文本和类型信息精炼实体相关图像。TIVA-KG[66]跨越文本、图像、视频和音频模式,建立在ConceptNet[16]之上。它引入了三重基础,将符号知识与有形表征结合起来。类似地,VTKG[68]将实体和三元组附加到图像中,并为每个实体和关系补充文本描述。
讨论15:在MKGC中,使用像VGG或BERT这样的预训练编码器提取模态信息是必不可少的。基于嵌入的方法通常在训练期间冻结这些编码器,并使用提取的数据初始化模态嵌入,而基于傅里叶变换的方法优化它们,更紧密地与模型的固有知识和记忆保持一致。这导致基于嵌入的方法中模态信息的利用不足,而基于ft的方法则难以处理复杂的KG结构信息。此外,在真实的KGs中缺少模态信息的挑战是显著的。如早期研究[51]、[440]所见,初始解决方案涉及对缺失模态嵌入的随机初始化。最近,MACO[549]引入了对抗性训练来解决这一问题,但这些方法仍然是基本的,需要更多的创新方法。
2) Multi-modal Knowledge Graphs Reasoning:
MKGC方法通常侧重于mmkg中的单跳推理,这可能会限制kg对多跳知识推理的利用[550]。多模态知识图推理(Multi-modal knowledge graph reasoning, MKGR)的目标是在多模态知识图上实现复杂的多跳推理,这一领域目前还处于研究的早期阶段。
定义14:MMKG推理。MKGR以以下三种形式之一预测缺失的查询元素:(h, r, ?)、(h, ?, t)或(?, r, t),其中“?”表示缺少的元素。目标是通过A - MMKG的TR中的多跳推理路径来推断该元素,其中路径长度小于或等于k跳,k是大于或等于1的整数。
MMKGR[456]在类比示例的指导下,将门注意网络与特征感知强化学习相结合,用于MMKGR中的多跳推理。TMR[457]通过关注机制聚合查询相关的拓扑特征,以生成实体无关的特征,从而在归纳和转导设置下进行有效的MMKG推理。MarT[458]引入了多模态类比推理的概念,类似于跨模态链接预测,但没有明确定义的关系。这个任务,框架为(eh, et):(eq, ?),利用背景MMKG进行缺失元素(?)预测。它在MKGR下的分类源于它对尾(或头)实体预测的另一个三元组的依赖,与传统MKGR不同的是,它不需要明确的推理路径。为了方便完成这项任务,MarT提供了一个专用数据集(MARS)和附带的MMKG (MarKG)。此外,他们开发了一种受结构映射理论启发的模型不可知论基线方法来解决这一独特的推理挑战。
随着这一领域的不断发展,它有望成为MMKG推理的关键方向,为突破性的发现和进步提供丰富的机会。