当前位置：首页 > article >正文

【MissModal】提高多模态情感分析对缺失情态的鲁棒性

article 2025/2/22 17:23:01

abstract

当在下游推理中应用多模态机器学习时，联合和协调的多模态表示都依赖于训练中模态的完全存在。然而，由于不同的输入形式和语义信息的不足，模态不完整数据（即某些模态缺失）极大地降低了多模态情感分析（MSA）的性能。这限制了主要的MSA方法在现实世界中的适用性，在现实世界中，多模态数据的完整性是不确定和可变的。基于生成的方法试图生成缺失模态，但它们需要复杂的层次结构和巨大的计算成本，并与不同模态之间的表示差距作斗争。另外，我们提出了一种新的表征学习方法，称为MissModal，致力于提高分类方法中对缺失模态的鲁棒性。具体来说，我们采用几何对比损失、分布距离损失和情感语义损失的约束来对齐模态缺失和模态完整数据的表示，而不影响对完整模态的情感推断。此外，我们不要求在多模态融合阶段进行任何更改，这突出了我们的方法在其他多模态学习系统中的通用性。大量的实验表明，该方法在各种缺失模态场景（灵活性）中以最小的计算成本获得了卓越的性能，包括在两个公共MSA数据集上严重缺失模态（效率）。

intro

随着互联网的普及和用户生成视频的激增，多模态情感分析（MSA）已经成为一个重要的具有挑战性的研究任务，侧重于使用多种模式（包括文本、音频和视觉）预测情绪(Morency等，2011；Poria et al, 2020)。之前的模型(Zadeh et al, 2017；Tsai et al ., 2019a；Wang et al ., 2019；Han等人，2021)旨在学习映射函数来融合不同模态的信息，并获得可区分的多模态表示用于情感推理。如图1所示，这些MSA方法输入具有多模态的话语，在地面真值标签的监督下训练多模态表示的映射函数，并将学习到的MSA模型应用于下游测试中，预测其他话语的情感。

然而，这些MSA方法中的训练和测试管道都需要完整的模态数据，这表明映射函数对缺失模态的敏感性。在测试中缺少任何模态都会导致训练输入数据分布的差异，从而导致映射函数的性能下降。由于现实世界中的不确定性和各种模态设置，对模态完整性的要求限制了先前多模态表示学习策略的应用。

为了解决缺失模式的问题，基于生成的研究出现了，其重点是利用剩余的模式来生成缺失的模式(Tsai等人，2019b；Pham等人，2019；Tang et al ., 2021)。这些生成模型具有复杂的层次结构，需要冗余的训练参数和较高的训练计算成本。此外，它们的生成性能仍然受到不同模态之间巨大模态差距的挑战，进一步限制了它们在现实世界中的应用。

与生成式学习方法不同，我们提出了一种新的多模态表示学习方法MissModal，致力于以分类的方式提高模型对缺失模态的鲁棒性。具体来说，我们利用依赖于特定模态的网络来学习每个模态的表示。然后，根据完整模态（文本、音频、视觉）和缺失模态（文本）、（音频）、（视觉）、（文本、音频）、（文本、音频）、（文本、视觉），采用结构一致的多模态融合网络，学习相应的完整模态和缺失模态表征。为了转移完整模态的语义知识，我们构建了三个约束来对齐缺失模态和完整模态表示，包括几何对比损失（在样本水平上利用构造学习）、分布距离损失（调整表示的分布）和情感语义损失（引入情感标签的监督）

为了提高MSA模型在现实世界中的下游性能，我们在训练中保留了模态的完整性，然后将训练好的模型冻结以不同模态的不同缺失率进行验证和测试，以评估所提出方法的灵活性（随机缺失各种模态）和效率（严重缺失模态）

本文的贡献总结如下：

1)我们提出了一种新的多模态表示学习方法MissModal，致力于提高MSA模型对下游应用中缺失模态问题的鲁棒性。

2)在没有生成方法的情况下，我们构建了几何对比损失、分布距离损失和情感语义损失三个约束来对齐缺失模态和完整模态的表示。

3)在两个公开的MSA数据集上进行了大量的实验，这些数据集具有不同的缺失率和缺失模式设置，证明了该方法在灵活性和效率方面的优越性

related work

多模态表征学习

自然语言、运动视频和声音信号等多种形式包含关于共同概念的特定和互补信息（Baltrusaitis等人，2019）。多模态表示学习侧重于探索模态内和模态间的动态，并为各种下游任务学习可区分的表示（Bugliarello等，2021）。最近，基于对比学习的多模态预训练模型，如CLIP （Radford等人，2021）、WenLan （Huo等人，2021）和UNIMO (Li等人，2021)，利用对比学习来训练可迁移映射，以桥接大规模图像-文本对。

这些预训练模型的成功下游应用证明了对比学习在对齐不同模态表征方面的有效性

作为多模态机器学习的一个任务分支，多模态情感分析（MSA）旨在整合包含在不同模态中的语义信息，包括文本、声学和视觉模态，以预测话语的情感强度（Poria et al, 2020）。以前的MSA方法主要集中于设计有效的多模态融合方法，以探索不同模态之间的共性(Zadeh et al ., 2017；Rahman et al, 2020；Han等人，2021)，并学习信息多模态表示。

然而，明确的融合策略的培训管道需要所有模式的存在。

缺少下游的任何模态都会增加训练和测试之间输入条件的差异，从而导致应用程序中情绪的错误推断

模态缺失问题

前面提到的多模态预训练模型严重依赖于模态的完备性，这使得它们无法处理模态数据不完备的问题。正如Ma等人（2022）所指出的，多模态变压器（Hendreicks等人，2021）对缺失模态很敏感，模态融合策略依赖于数据集，这显著影响了鲁棒性。因此，为了解决缺失模态问题，基于生成的方法(Ma et al, 2021；Vasco等人，2022)提出学习模态共享表示的先验分布，并推断模态共享潜在空间中的缺失模态，这也被用于MSA任务(Tsai等人，2019b；Pham等人，2019；Tang et al ., 2021)。然而，这些基于生成的方法需要大量的计算成本，并且生成性能受到巨大模态差距的限制。同时，它们大多需要复杂的层次模型架构，在下游应用中缺乏通用性和效率。与他们不同的是，我们致力于利用分类方法而不是生成方法来达到缺失模态场景下的性能上限。

最近，Hazarika等人（2022）提出了鲁棒训练，利用缺失和噪声文本输入作为数据增强来训练最先进的MSA模型。然而，单一模态和固定缺失率的设置限制了鲁棒训练的应用。另外，根据缺失率和缺失模态的多样性，我们通过灵活性（随机缺失各种模态）和效率（测试中严重缺失模态）来评估性能，以显示所提出方法对缺失模态的鲁棒性改进。

方法

任务定义

模型架构

为了提高测试中对缺失模态的鲁棒性，我们提出了一种名为MissModal的新型多模态表示学习方法，其架构如图2所示。

为了获得特定于模态的表示，我们首先采用预训练的BERT （Devlin et al, 2019）对输入文本嵌入T进行编码并学习文本表示，其中最后一层Transformer的输出嵌入表示为：

同时，对于声学和视觉模态，我们使用两个双向lstm （Hochreiter和Schmidhuber， 1997）捕获时间特征，使用两个3层单峰变压器（Vaswani et al ., 2017）进一步编码全局自注意信息。对于U∈{A， V}，声视编码器表示为：

特别地，我们取的[CLS]令牌和的最后一个时间步的嵌入，这意味着对于U∈{T， A, V}，模态特定表示。

为了捕捉模态共享动态，我们利用多模态融合网络来学习不同模态之间潜在的相互作用。

具体来说，为了更好地处理各种缺失情态的情况，我们以七种方式连接情态特定表示来模拟七种输入情况，包括完整模态的设置，表示为（T，A，V）和缺失后的剩余模态，表示为{(T),(A),(V),(T，A),(T，V)}。

为了突出MissModal的有效性，同时又不失一般性，我们采用几个具有激活层的简单mlp作为融合网络，提取连接后的模态间信息，表示为：

其中，[ ; ]为模态拼接，为模态完备的多模态表示，为剩余模态输入的表示1≤i<3。

注意，多模态融合网络的结构是可选的，并且可以被最先进的多模态融合方法灵活地替代，这说明了所提出方法的向后兼容性。

缺少模式时的约束

如图1所示，为了提高模型对缺失模态的鲁棒性，我们提出了三个损失作为约束，以将缺失模态表示与下面的完整模态表示对齐。

几何对比损耗

Poklukar等人（2022）指出，模态特定表示与完整表示之间存在巨大差距，导致分布空间出现严重偏差。受Chen等人（2020）和Poklukar等人（2022）的启发，但与之不同的是，我们在具有完整模态的多模态表征和具有不同模态缺失情况的多模态表征之间引入了对比学习，以在情感标签监督中对来自相同话语样本的表征进行几何对齐

给定一个多模态表示的小批，我们根据小批B中的第i和第j个样本定义正对为，负对为，然后计算负对之间的相似度和为：

其中γ是调节不同实例上概率分布的温度超参数（Hinton et al, 2015）。同样，正对的相似度记为，将缺失模态表示与相应的完全模态表示联系起来

通过遍历小批中的所有样本，几何对比损失表示为：

对比学习鼓励多模态融合网络将完整模态信息转移到缺失模态表征中，使它们在处理应用中缺失模态问题时更容易区分。

分布距离损耗

为了进一步增强和相应的的相似性，我们添加了L2距离约束，以减小来自同一样本的缺失模态和完全模态表示之间的分布距离。分布距离损耗表示为：

当模态缺失时，几何对比损失和分布距离损失都增加了模型在特征空间中的鲁棒性。

情感语义丢失

由于不同的模态所包含的语义信息不同，缺少模态可能导致同一话语的情感不同。为了情感极性推理的一致性，我们引入情感语义损失，利用基础真值标签y来监督标签空间中缺失模态表示的情感预测，表示为：

优化目标

在MSA任务中，在获得完整模态的情感预测后，我们使用平均绝对误差（MAE）损失对情感标签进行回归。随着地面真值标签y，任务损失表示为：

最后计算所有训练损失的加权和，得到最终的优化目标，表示为：

其中α和β表示控制特征空间中缺失模态表示的训练损失影响的超参数。

experiment setting

datasets and metrics

实验是在MSA研究中的两个基准数据集上进行的：CMU-MOSI （Zadeh等人，2016）包含从89位评论者的93个YouTube电影评论视频中切片的2199个独白话语。我们使用1284个话语进行训练，229个话语进行验证，686个话语进行测试。CMU-MOSEI （Zadeh等人，2018b）将多模态数据扩展到20k个视频剪辑中，这些视频剪辑来自1000个不同的YouTube演讲者收集的250个不同主题的3228个视频。

我们使用16,326个话语进行训练，1,871个话语进行验证，4,659个话语进行测试。这两个数据集都在李克特量表上对情绪进行了注释，范围从- 3到+3，其中极性表示正/负，绝对值表示所表达情绪的相对强度。

对于评估指标，我们报告了[−3，+3]中情绪分类的七类分类精度（Acc7），以及两种测量设置中的二元分类精度（Acc2）和加权F1分数（F1），即非负和负（非排除0）（Zadeh等人，2017）/积极和负（排除0）（Tsai等人，2019a）。此外，我们计算平均绝对误差（MAE）和皮尔逊相关（Corr）的回归差异和预测标签与基础真值之间的相关性

baseline

MSA基线大致分为：

•简单的早期和晚期融合模型：EFLSTM (Williams等人，2018b), LF-DNN (Williams等人，2018a)；

•基于张量的融合模型：TFN (Zadeh等人，2017),LMF (Liu等人，2018)；

•基于图的融合模型：Graph-MFN (Zadeh et al, 2018b)；

•生成和基于翻译的模型：MFM (Tsai等人，2019b), MCTN (Pham等人，2019),cctn (Tang等人，2021)；

•明确的模式内和模式间动力学操纵模型：MFN (Zadeh等人，2018a), MISA (Hazarika等人，2020)；

•基于transformer的聚变模型：MulT （Tsai等人，2019a）、MAG-BERT (Rahman等人，2020)；

•标签指导：Self-MM (Yu et al, 2021)；

•相互信息最大化模型：MMIM （Han et al, 2021）。

我们用超参数网格搜索重现基线，以获得最佳结果。此外，我们按照Hazarika等人（2022）的方法，在完整模态和缺失文本模态的情况下，在15%掩蔽和15%噪声语言数据的鲁棒训练下运行最先进的模型，以进行公平的比较。

实现细节

根据基线的设置，我们采用预训练的bert -base-uncase模型对文本输入进行编码，并获得每个标记具有768维隐藏状态的原始文本特征。

此外，我们利用CMU-Multimodal SDK对音频和视觉数据进行预处理，使用COVAREP （Degottex et al ., 2014）和Facet1提取原始的声学和视觉特征。

我们在CUDA 10.2的单个GTX 1080Ti GPU上进行实验。对于超参数，根据Gkoumas et al(2021)，我们执行50次随机网格搜索以找到最佳超参数设置，包括{0.3,0.5,0.7}中的α和β以及{0.5,0.7,0.9}中的τ。MOSI和MOSEI的批大小设置为32。

为了优化，我们采用AdamW （Loshchilov and Hutter, 2019）作为优化器，两个数据集上BERT参数的学习率为5e-5，其他参数在MOSI上的学习率为5e-4，在MOSEI上的学习率为1e-3。

对于完整和缺失的模式设置，我们运行五次实验，并报告平均性能作为最终结果。在缺失模态的实验中，我们对两个数据集的训练集保持模态的完备性来对模型进行微调，然后对不同模态的缺失率不同的验证集和测试集冻结模型，以评估所提出方法的灵活性和效率。

实验结果

完整模态的实验

如表1所示，我们在训练和测试中比较了MissModal与最先进的MSA方法的性能。在所有指标上的突出结果证明了所提出的特定模态和跨模态表示学习架构在MOSI和MOSEI上的有效性。

此外，大多数先前的MSA模型要求存在完全模态，当输入数据中缺少模态时，不能直接使用完全模态。为了解决这个问题，我们对最先进的MSA模型采用了鲁棒训练（Hazarika et al, 2022）策略。然而，不管缺失模态的情况如何，我们观察到，当使用完整模态进行测试时，由于引入屏蔽或噪声输入，鲁棒训练降低了大多数指标的性能。

而在缺失模态表示的约束下，MissModal获得了较好的实验结果，这表明缺失模态机制的引入不会影响完整模态的测试性能。

缺失模态时的实验

为了显示所提出的解决缺少模态问题的约束的好处，我们通过在验证和测试集中将模态输入替换为零向量来删除模态。值得注意的是，与Hazarika等人（2022）将语言作为特定缺失情态的训练和测试不同，我们在缺失文本情态、缺失听觉或视觉情态以及缺失随机情态的各种场景下评估missmodal。

缺少文本情态

在MSA任务中，语篇情态被视为主导情态(Hazarika et al ., 2020；Wu等，2021；Lin and Hu, 2023)由于大规模的预训练语言模型和丰富的语义信息的性质有助于情感理解。我们首先将MissModal与经过鲁棒训练的最先进的方法（Hazarika et al, 2022）进行了比较，这些方法在不同的缺失率下缺失了文本模式。如表2所示，在大多数指标上，特别是在模态严重缺失的情况下，MissModal在鲁棒性训练下比最先进的方法取得了更好的性能。

我们假设鲁棒训练的缺失率和噪声率（15%）的固定设置限制了它在更高缺失率的文本模态上的应用。相反，MissModal专注于提高缺失模态表示的鲁棒性，其性能不依赖于缺失率的固定设置。

为了进一步显示MissModal在灵活性和效率方面的有效性，我们在MOSI和MOSEI数据集的测试集上运行了带有和不带有MissModal的模型，其文本模态的缺失率不同，如图3和图4所示。

我们观察到，10%-90%的文本模态缺失率使没有MissModal的模型的平均性能下降比有MissModal的模型更显著。此外，没有MissModal的性能在所有指标上的方差随着缺失率的增加而迅速增长，而在有MissModal的模型的实验结果中没有出现这种情况。

此外，缺少文本情态导致预测情感的两极分化，这是由于声学和视觉模态对细粒度情感的关注较少。因此，mismodal可以帮助模型学习更多可区分的缺失情态表示，大大提高了情感推理的准确性，特别是在严重缺失情态的情况下。

缺少声音或视觉形态

作为MSA中的下位模态，声学和视觉模态在情绪预测中起着辅助和互补的作用，在MOSI和MOSEI上缺失率分别为50%和90%的情况下去除这两种模态对表现的影响较小，如表3-4所示。然而，缺少它们中的任何一个都会导致MSA模型的次优解。在任何缺失率下，缺失任何模态，具有MissModal的模型在所有指标上的性能都优于没有MissModal的模型，证明了所提出方法的优越性。

随机缺失模式

为了展示MissModal在解决缺失模态问题方面的更广泛应用，我们删除了随机分布抽样策略中的模态，并将剩余模态的输入作为{(T),(A),(V),(T，A),(T，V)}的设置运行MissModal。该实验设置与模态存在未知的现实世界中采用MSA模型时的场景一致。

如图5和图6所示，在MOSI和MOSEI数据集的测试集上，模态被随机去除，缺失率在10%-100%之间，其中100%缺失率意味着每个测试话语是不完整的，并且随机缺失模态。有MissModal的模型比没有MissModal的模型有更高的平均性能和更低的方差，这表明MissModal仍然是缺失模态场景下情绪预测性能的上界。此外，我们还观察到，无论是在缺少文本模态还是随机模态的情况下，mismodal在MOSEI上的性能和稳定性都比MOSI上有更大的提高。

我们假设在MOSI上，由于数据集的规模较小，模型倾向于过度拟合数据，而在MOSEI上，更大的数据规模有助于揭示所提出方法的泛化性能的更显着改善。

总的来说，MissModal在缺失模态随机性的灵活性和严重缺失模态甚至100%随机缺失率的效率两方面的实验中都表现出更稳定和优越的性能。

进一步分析

消融实验

我们对MissModal的损失函数

进行了消融研究，随机模态缺失率为100%，如表5所示。显然，每一次损失都有助于训练，并鼓励模型达到最佳性能。此外，在的基础真值标签的监督下，MissModal的性能要比不使用训练的MissModal的性能高得多。然而，在缺少模态的表征中，仅在预测层面指导学习是远远不够的。通过使用在特征级别进行微调，该模型学习到更健壮的非模态表示。有趣的是，即使在没有的帮助下，也可以在无监督的情况下提高非模态表示的性能，这为无监督MSA领域提供了新的视角

此外，我们仅用一种特定模态来评估MissModal的性能，当其他模态的信息完全缺失时。

如表6所示，实验表明，在MSA任务中，文本模态是主导模态，听觉模态和视觉模态是次要模态，这与之前的研究结果和前人的研究结果一致（Gkoumas et al, 2021）。然而，只有文本情态才可能使模型陷入主观和有偏见的情绪问题(Zadeh et al, 2017；Wang等人，2019)，与多模态情况相比，性能下降。因此，声学和视觉模态的引入对于进一步提高MSA任务的情感推断的准确性是必要的。话语的每个情态都提供独特和互补的属性，这些属性被提取为情态特定和共享的特征，用于最终的情感预测。对各种模态的需求表明，当模态缺失时，有必要提高MSA模型的鲁棒性。

表示可视化

如图7(a) -7 (b)所示，我们利用t-SNE算法（Van der Maaten and Hinton, 2008）在嵌入空间中为缺失表征和完整表征的学习过程提供可视化。在训练前，缺失情态表征和完整情态表征之间存在显著的情态差距。通过三个提出的约束条件的指导，MissModal成功地将缺失声学或视觉模态的表征分布与完整模态的表征分布对齐，从而在表3和表4中缺失声学和视觉模态的实验中获得了更好的结果。然而，我们观察到语义信息的缺失使得优化和对齐缺乏文本情态的多模态表示具有挑战性，如表6的结果所示，突出了文本情态的主导作用。尽管嵌入空间中仍存在空白，但没有文本模态的表征的分布形状与图7(b)中的其他表征相似，这说明了MissModal即使在缺少主导模态的情况下也是有效的。

此外，我们在图7(c)的下游测试中可视化了具有完整模态的不同情感类的表示，以证明MissModal在下游推理中的优越性。将学习到的多模态表征根据积极情绪、中性情绪和消极情绪分成可区分的聚类。此外，同一情感类内部的表示是紧凑的，并且随着情感强度的增加而变得越来越紧凑。这揭示了多模态表示和情感标签之间的关系，隐含地表明Lgeo、ldi在特征空间和Lsem在预测层面之间的富有成效的合作。

定性分析

为了进一步验证所提出的方法的贡献，我们给出了一些例子，在表7的多模态输入数据中缺少模态时，MissModal与没有MissModal的模型相比取得了更好的性能。这些例子显示了缺少模式的各种情况，以证明所提出的三个约束的有效性。

示例1到3包含多模态输入，其中只缺少一个模态，其中缺失的模态为最终的情感预测提供了额外的信息。如果没有这些补充信息，没有mismodal的模型往往会过度放大或过度减少话语中包含的情感程度。不同的是，mismodal在训练中将缺失的情态表示与完整的情态表示对齐，这在情感标签的指导下隐含地将缺失的情态知识转移到剩余的情态。因此，在这些情况下，MissModal的情感预测更接近带注释的ground truth标签，从而在Acc7、MAE和Corr上获得更高的性能，如图6所示。

例4和5展示了没有声音和视觉模态的情况，说明这两种次等模态在情感推理中起辅助作用。特别是在例5中，话语中的文本可以被描绘成大多数中性的，这使得没有MissModal的模型的预测分数接近于0。

然而，由于积极的语气和专注的面部表情所传达的潜在信息，MissModal将情绪的极性转向了一点积极，类似于给定的地面真相标签。

模型的复杂性

如表8所示，我们通过报告CMU-MOSEI上增加的参数数量来比较各种模型的模型复杂性。

首先，如上所述，MFM、MCTN和CTFN等生成模型需要大量参数，这加强了在计算量有限的情况下采用基于分类的方法的动机。不同的是，通过简化多模态融合网络来显著降低计算复杂度，MissModal需要的参数小于或可与最先进的基线相媲美。mismodal的额外增加参数主要是由多个融合网络在各种缺失模态的情况下带来的。

此外，mismodal中提出的约束条件在解决模态缺失问题时不需要额外的训练参数。一般来说，MissModal在完整模态和缺失模态下都能更好地平衡模型复杂性和性能

局限性

以下列出了所提出方法的局限性，以供将来的研究。首先，MissModal的模型参数取决于多模态融合网络的复杂性和模态的数量，这可能会在该方法的下游应用中带来模型复杂性增加的问题。

然后，MissModal的改进似乎与数据集的规模有关，其中小数据集可能会限制MissModal的鲁棒性。我们认为，增加数据集的规模可以显示所提出的方法在缺失模式的问题上更有效。最后，尽管mismodal旨在处理推理阶段缺失的模态，但训练中对完整模态的需求增加了收集多模态数据的困难。在训练中摆脱模式的完整性是我们未来探索的另一个有趣的研究领域。

结论

在本文中，我们提出了一种新的基于分类的方法MissModal，通过构造几何对比损失、分布距离损失和情感语义损失三个约束来对齐缺失模态和完整模态的表示，以增强下游应用中对缺失模态的鲁棒性。在各种缺失模态和缺失率设置下的大量实验表明，MissModal在两个公共数据集上具有灵活性和效率的优势。对表示可视化和模型复杂性的分析进一步表明了MissModal在其他多模态系统中的巨大潜力和通用性。

查看全文

http://www.kler.cn/a/383708.html