【论文复现】MSA+抑郁症模型总结(二)
📝个人主页🌹:Eternity._
🌹🌹期待您的关注 🌹🌹
❀MSA+抑郁症模型
- 情感分析的应用
- 1. 概述
- 2. 论文地址
- 3. 研究背景
- 4. 主要贡献
- 5. 模型结构和代码
- 6. 数据集介绍
- 7. 性能展示
- 8. 复现过程
- 9. 运行过程
- 总结
情感分析的应用
近年来,随着社交媒体和高质量摄像头智能手机的迅猛发展,我们目睹了多模态数据的急剧增长,涵盖了电影、短视频等多种形式。在现实生活中,多模态数据主要由视觉(图像)、听觉(语音)和文本转录三个维度构成,它们往往蕴含着丰富的情感表达,这种情感倾向在个体面对特定话题时尤为显著,生成多样化的反应和情绪。挖掘并理解这些多模态数据中的情感元素,即多模态情感分析(MSA),已成为备受瞩目的研究领域,其应用广泛,如获取客户对产品的整体反馈或评估潜在投票者的投票意向等。在此过程中,不同模态在同一数据段中往往相互补充,为消除语义和情感歧义提供宝贵线索。多模态融合作为MSA的核心环节,旨在整合所有输入模态的信息,以深刻洞察数据背后的情感内涵。
此外,抑郁症对个人和社会均构成了严峻的全球性挑战。当前,抑郁症的诊断主要依赖于问卷调查和医学专业评估,但其准确性易受参与者配合度和操作人员专业水平的影响。近年来,基于人工智能的自动抑郁检测技术崭露头角,这些技术通常利用面部表情、语音记录、文本和脑电图等多种生理或行为数据,这些数据通常在访谈过程中收集。其中,音频和文本数据易于获取,且富含抑郁症状的相关信息。
我专注于对情感计算领域的经典模型进行深入分析、解读和总结。鉴于当前大多数情感计算数据集以英文为主,我们计划在后续系列文章中引入中文数据集(如SIMS, SIMSv2),旨在开发适用于中国人群的情感计算分析模型,并将其应用于情感疾病(如抑郁症、自闭症)的检测任务,为医学心理学等领域提供有力支持。同时,我们还纳入了幽默检测数据集,并计划在未来引入更多小众数据集,以检测更为隐晦的情感,如嫉妒、嘲讽等,从而推动AI更好地服务于社会,提升人们的生活质量。
【注】 我们文章中所用到的数据集,都经过重新特征提取形成新的数据集特征文件(.pkl),另外该抑郁症数据集因为涉及患者隐私,需要向数据集原创者申请,申请和下载链接都放在了我们附件中的readme文件中,感兴趣的小伙伴可以进行下载,谢谢支持!
1. 概述
这篇文章,我将介绍第二篇情感计算经典论文模型,他是EMNLP 2021的一篇经典MSA论文中的模型–Improving Multimodal Fusion with Hierarchical Mutual Information Maximization for Multimodal Sentiment Analysis(MMIM)
此外,原创部分为加入了抑郁症数据集以实现抑郁症检测任务,以及SIMS数据集和SIMV2数据集。
本文所涉及的所有资源的获取方式:
https://www.aspiringcode.com/content?id=17216431448684&uid=31a4df4d1ffd4a8294e851d9086c3439
2. 论文地址
Improving Multimodal Fusion with Hierarchical Mutual Information Maximization for Multimodal Sentiment Analysis:
https://arxiv.org/pdf/2109.00412
3. 研究背景
近年来,多模态情感分析(MSA)与抑郁症检测(DD)领域备受瞩目,其中MSA模型的效能高度依赖于融合嵌入的质量。这些嵌入源自多模态融合过程,该过程旨在提取并结合单模态原始数据,以构建更为丰富的多模态表征。过往研究往往侧重于通过反向传播任务损失或调整特征空间几何特性来优化融合效果,却忽视了在融合过程中保留关键任务相关信息的重要性。鉴于此,本文提出了一种名为MMIM的多模态信息最大化框架,该框架通过分层最大化单模态输入对之间的互信息(模态间)以及多模态融合结果与单模态输入之间的互信息,确保在多模态融合过程中有效保留与任务相关的信息。MMIM框架与主任务(即MSA)联合训练,旨在提升下游MSA任务的性能。为应对互信息(MI)界限难以确定的问题,本文还进一步开发了一套既包含参数化又包含非参数化的简便计算方法,以逼近这些互信息的真实值。
4. 主要贡献
- 提出了一种用于多模态情感分析层次化MI最大化框架。MI最大化发生在输入级和融合级,以减少有价值的任务相关信息的损失。据我们所知,这是第一次尝试在MI和MSA之间建立桥梁;
- 作者制定了我们的框架中的计算细节,以解决棘手的问题。该公式包括参数学习和非参数GMM稳定和光滑的参数估计;
- 在两个公开的数据集上进行全面的实验,并获得上级或与最先进的模型相当的结果。
5. 模型结构和代码
1. 总体框架
如下图所示,MMIM模型首先使用特征提取器(用于视觉和声学的固件,没有参数可供训练)和标记器(用于文本)将原始输入处理为数字序列向量。然后,将它们编码为单个单位长度表示。然后,该模型在两个协作部分中parts-fusion和MI最大化,分别由下图中的实线和虚线标记。在融合部分,堆叠的线性激活层的融合网络F将单峰表示转换为融合结果Z,然后将其通过回归多层感知器(MLP)进行最终预测。这两个部分同时工作,以产生用于反向传播的任务和MI相关损失,通过该模型学习将任务相关信息注入融合结果,并提高主任务中预测的准确性。
2. 模态编码器
我们首先将多模态顺序输入
X
m
X_m
Xm 编码成单位长度表示
h
m
h_m
hm。具体地,我们使用BERT对输入句子进行编码,并从最后一层的输出中提取头部嵌入作为
h
t
h_t
ht。对于视觉和声学,遵循之前的成果,采用了两个特定于模态的单向LSTM来捕获这些模态的时间特征。
h t = Bert ( X t ; θ BERT t ) h_t = \text{Bert}(X_t; \theta_{\text{BERT}}^t) ht=Bert(Xt;θBERTt)
对于视觉( v v v)和声学( a a a)模态,我们使用以下公式进行编码:
h m = sLSTM ( X m ; θ LSTM m ) 其中 m ∈ { v , a } h_m = \text{sLSTM}(X_m; \theta_{\text{LSTM}}^m) \quad \text{其中} \quad m \in \{v, a\} hm=sLSTM(Xm;θLSTMm)其中m∈{v,a}
3. 模态间MI最大化
通过以上分析,我们希望通过在多模态输入之间提示MI,可以过滤掉与任务无关的模态特定随机噪声,并尽可能多地保留跨所有模态的模态不变内容。如前所述,作者提高了一个易于处理的下限,而不是为此直接计算MI。利用了Barber和Agakov中引入的精确和直接的MI下界。
4. 融合的MI最大化
为了加强中间融合结果以捕获模态之间的模态不变线索,在融合结果和输入模态之间重复进行互信息(MI)最大化。优化目标是产生融合结果 (Z = F(X_t, X_v, X_a)) 的融合网络 (F)。因为我们已经有了一条从 (X_m) 到 (Z) 的生成路径,所以我们期望有一条相反的路径,即从 (Z) 构造 (X_m),其中 (m \in {t, v, a})。受Oord等人的启发但与之不同,作者使用作用于归一化预测和真值向量的评分函数来衡量它们的相关性;因为作者发现模型倾向于拉伸两个向量以最大化得分,而不进行这种归一化。然后,与Oord等人所做的相同,将此评分函数纳入噪声对比估计框架,将同一批次中该模态的所有其他表示处理为负样本。
以下是对这种提法的合理性的简短解释:对比预测编码(CPC)在时间范围内对上下文和未来元素之间的MI进行评分,以保持跨越许多时间步长的“慢功能”部分。类似地,在MMIM的模型中,要求融合结果 (Z) 反向预测跨模态的表示,以便可以将更多的模态不变信息传递给 (Z)。此外,通过将预测与每一种模态对齐,使模型能够确定它应该从每一种模态接收多少信息。
6. 数据集介绍
1. CMU-MOSI: 它是一个多模态数据集,包括文本、视觉和声学模态。它来自Youtube上的93个电影评论视频。这些视频被剪辑成2199个片段。每个片段都标注了[-3,3]范围内的情感强度。该数据集分为三个部分,训练集(1,284段)、验证集(229段)和测试集(686段)。
2. CMU-MOSEI: 它类似于CMU-MOSI,但规模更大。它包含了来自在线视频网站的23,453个注释视频片段,涵盖了250个不同的主题和1000个不同的演讲者。CMU-MOSEI中的样本被标记为[-3,3]范围内的情感强度和6种基本情绪。因此,CMU-MOSEI可用于情感分析和情感识别任务。
3. AVEC2019: AVEC2019 DDS数据集是从患者临床访谈的视听记录中获得的。访谈由虚拟代理进行,以排除人为干扰。与上述两个数据集不同的是,AVEC2019中的每种模态都提供了几种不同的特征。例如,声学模态包括MFCC、eGeMaps以及由VGG和DenseNet提取的深度特征。在之前的研究中,发现MFCC和AU姿势分别是声学和视觉模态中两个最具鉴别力的特征。因此,为了简单和高效的目的,我们只使用MFCC和AU姿势特征来检测抑郁症。数据集用区间[0,24]内的PHQ-8评分进行注释,PHQ-8评分越大,抑郁倾向越严重。该基准数据集中有163个训练样本、56个验证样本和56个测试样本。
4. SIMS/SIMSV2: CH-SIMS数据集[35]是一个中文多模态情感分析数据集,为每种模态提供了详细的标注。该数据集包括2281个精选视频片段,这些片段来自各种电影、电视剧和综艺节目,每个样本都被赋予了情感分数,范围从-1(极度负面)到1(极度正面)
7. 性能展示
- 在情感计算任务中,可以看到MMIN模型性能超越其他模型,证明了其有效性;
- 抑郁症检测任务中,MMIN在我们的数据集AVEC2019中依旧亮眼:
Model | CCC | MAE |
---|---|---|
Baseline | 0.111 | 6.37 |
EF | 0.34 | – |
Bert-CNN & Gated-CNN | 0.403 | 6.11 |
Multi-scale Temporal Dilated CNN | 0.430 | 4.39 |
MMIM | 0.438 | 5.35 |
- SIMS数据集
8. 复现过程
在准备好数据集并调试代码后,进行下面的步骤,附件已经调通并修改,可直接正常运行;
1. 下载多模态情感分析集成包
pip install MMSA
2. 进行训练
$ python -m MMSA -d mosi/dosei/avec -m mmim -s 1111 -s 1112
9. 运行过程
- 训练过程
- 最终结果
总结
1. 适用场景:
-
情感驱动的内容生成: 该模型可以应用于情感驱动的内容生成任务,如根据用户的情感状态生成符合其情绪的音频、图像或文本内容。这在个性化推荐系统和广告定制中具有潜在的应用。
-
心理健康监测与干预: 在心理健康领域,MMIM模型可以用于抑郁倾向监测和情绪干预。通过分析用户的语音、面部表情和文字信息,可以早期发现和处理心理健康问题,提供个性化的支持和建议。
-
在教育和培训领域: MMIM模型可以用于情感教育和人际关系技能培训。通过模拟多模态情境并提供实时反馈,帮助个体提高情感表达和沟通能力。
2. 项目特点:
-
多模态整合: MMIM模型能够有效地整合文本、图像和音频等多模态数据,充分利用不同模态之间的相关性,提升情感分析的准确性和全面性。
-
自适应情感建模: 采用先进的自适应学习技术,MMIM模型能够根据具体任务和用户需求动态调整情感建模策略,提高模型的灵活性和适应性。
-
跨领域适用性: MMIM模型具有较强的跨领域适用性,不仅适用于社交媒体分析和心理健康监测,还能扩展至教育、电商推荐和人机交互等多个应用领域。
-
高效的情感表示学习: 通过深度学习技术,MMIM模型能够高效地学习和表示复杂的情感信息,实现对多模态数据的深度理解和情感分析。
编程未来,从这里启航!解锁无限创意,让每一行代码都成为你通往成功的阶梯,帮助更多人欣赏与学习!
更多内容详见:
https://www.aspiringcode.comuid=2f3a8c82324141c48058d8e14f59b3ce