当前位置: 首页 > article >正文

多模态抑郁估计论文研读|Multi-modal Depression Estimation Based on Sub-attentional Fusion

在此篇工作中,作者选择AVEC 2016挑战赛中最好的模型之一DepAudioNet作为baseline,并提出通过基于注意力的构建模块来融合视觉、音频和文本数据,包括一个卷积双向LSTM ( ConvBiLSTM )作为backbone,利用对每个个体MD子评分估计头的注意力进行子注意力融合。作者在DAICWOZ数据集上进行实验,与其他后期融合技术进行对比,研究了性别偏好,并在参与者级别和片段级别进一步验证。该模型具有远少于先前发表的方法的特征工程和数据预处理,以便更容易实现端到端的自动抑郁评估。

1、目前现状

目前的估计方法主要有基于文本、音频、视觉、多模态。

声学:基于特征的SVM->CNN+lstm、卷积自编码器

文本:双向门循环单元( Bidirectional Gate Recurrent Unit,BGRU)

视觉:主要是面部关键点或者原始视频数据提取,包括面部动作单元( Facial Action Units,FAUs )、面部特征点landmark、头部姿态和注视方向作为CNN的输入,视频数据在3DCNN从逐个问题的长期视频记录中解释抑郁症

多模态:因果神经网络

灵感:来自卷积图像分类,采用注意力机制融合跨模态。

2、模型

两种提高性能技术:"多路径不确定感知分数分布学习( MUSDL )  "和"锐度感知最小化( SAM )  "。

MUSDL(Multi-path Uncertainty-aware Score Distributions Learning)是一种特定的得分分布生成技术,用于将基本真值( Ground Truth,GT )中的每个硬标签转换为软标签的得分分布进行软决策。

来自Tang, Y., et al.: Uncertainty-aware score distribution learning for action quality assessment. In: CVPR (2020)

SAM(SharpnessAware Minimization)是一种二阶优化方法,专门设计并已被证明,以提高模型的泛化能力,即使只是在小数据集(这是抑郁估计中常见的一种情况)上训练。

来自Foret, P., Kleiner, A., Mobahi, H., Neyshabur, B.: Sharpness-aware minimization for efficiently improving generalization. In: ICLR (2021)

2.1 Sub-attentional ConvBiLSTM

三个模态:log-mel spectrograms (audio), micro-facial expressions (visual), and sentence embeddings (text)

backbone基于DepAudioNet(仅用于声学),通过把单向lstm转换为双向lstm,优化二维卷积神经网络到三维提高可用性来改善。

声音文本领域,提供低层特征图的平移等变响应,捕获一些短期特征;在视觉领域,专注于提取每帧之间的时间变化以提供局部注意力。然后,进行批量归一化,得到标准正态分布,用ReLU(f (x) = max(0, x))进行非线性变换。用max-pooling进行降维,在主干结构的末端堆叠一个BiLSTM层和一个FC层,目的是收集每个模态沿时间轴的长期变化,并从每个分支中提取有效特征。然后并行合成特征图作为后续后期融合层的输入。引入注意力融合层(加权),以实现每个模态之间的注意力信息交互。采用8个不同的注意力融合层,分别连接8个不同的输出头,对应PHQ - 8因子分阶段的子类数。

提供了多模态中属性的高级表示,同时也综合建模了潜在抑郁线索的长期和短期时间变异性,用于精确的抑郁估计

2.2 Attentional Fusion Layer

在第一层中,给定一个由每个模态Y∈R C × H × W提取的特征级联而成的特征图,它将首先被一个2D - CNN层处理,该层将学习捕获和检测最关键的特征,以形成新的具有相同大小( C × H × W )的局部平移等变响应。然后将该响应与输入特征图Y相加,形成中间特征图X∈RC × H × W,作为第二层的注意力块的输入。C表示通道数,在本文中为1,H × W表示特征图的大小。

在第二层中,给定从第一层生成的中间特征图,输出通道注意力权重w∈R C将被计算为:

它是全局特征注意力G ( X )∈RC和局部通道注意力L ( X )∈R C × H × W通过sigmoid激活函数σ变换后的聚合,如图2中放大的插图所示。全局特征关注度可由下式得到:

顾名思义,中间特征图的全局特征上下文将首先通过一个全局平均池化( Global Average Pooling,GAP )块来提取,其次是降维和增维块,即W1∈R Cr × C和W2∈RC × Cr,中间有一个修正线性单元( Rectified Linear Unit,ReLU )层。r是通道缩减比,降维和增维块实际上都是以逐点卷积( P W Conv)实现的。在每个块之后,应用批量归一化( BN )。对于局部特征注意力,可以通过排除GAP块g ( X )来建立类似的结构。因此,该函数可以概括为:

此外,值得注意的是,得到的L ( X )的局部注意权重与输入具有相同的形状( C × H × W ),可以通过训练从中间特征图中保留和突出抑郁线索的细微细节。推导出通道注意力权重w后,同样计算出互补通道注意力权重( 1 - w),精化特征( RF )和互补精化特征( RF c )可以通过以下公式计算:

最后,第二层的输出X′∈RC × H × W作为过渡注意力特征,可以通过两个细化特征的求和得到:

在第三层,将再次执行前面解释的注意过程,以进一步改善和突出多模态的过渡性注意特征X′中的抑郁特征。因此,最终的注意力特征融合输出Y′∈RC × H × W可以表示为:

其中w′是由X′输出的通道注意力权重。从而实现了自适应的多模态交互,有利于精确的抑郁估计。在我们的模型中,注意力特征融合输出Y′将被输入到8个分类头中进行PHQ - 8因子分阶段分类。

2.3 MUSDL

将GT中的每个得分将转化为一个类高斯分布的软标签向量,满足N (μ均值, σ2方差)分布

这里σ是超参数,表示评估片段的不确定性。

m,m′∈N表示软标签变换前后的类分辨率或类的个数。变换比r∈R可由r = m′m导出,它应等于或大于1,表明类分辨率不变或扩大。该比值越大,分布曲线越平滑,软决策策略性能越好。最后,将sGT中的每个硬标签s均匀离散为一个归一化的软标签向量s,可以得到一个n个高斯分布的矩阵Ssoft GT∈Rn × m′。

本工作根据PHQ - 8因子分阶段的定义,取n = 8,m = 4 ( 0级到3级)。设标准差σ为5,变换比例r为8,表示类数从m = 4扩展到m′= 32。可以注意到,在变换之前,给出了4个不同类的硬标号GT。变换后,生成正态分布的概率密度函数。此外,在训练阶段,所有的8个不同的分类头被训练以预测对应子分数的4个不同抑郁类别之间的概率,并使用softmax -函数:Ssoft pred = [ s1 , pred , s2 , pred , ... , sn , pred]。然后通过Ssoft GT和Ssoft pred之间的逐点KL散度计算学习损失:

在推理阶段,从训练好的模型中得到每个类别在所有PHQ - 8子评分下的预测概率,通过在每个子评分中选择概率最大的评分,然后除以比值r并向下取整得到最终的评估结果spred∈Nn:

2.4 SAM

一阶优化忽略了曲率等与泛化相关的高阶信息。

直观地说,SAM试图找到一个模型的权重参数w,该模型在ρ范围内的所有邻居与其他权重参数相比具有较低的训练损失Ltrain,正如Chen等人[ 6 ]所述。这种解释可以被制定成如下所示的minimax决策:

这是一个二阶问题。然而,由于用最优ε opt求解精确的内部最大化问题的复杂性,Foret等人[ 14 ]采用一阶近似来提高计算敏锐度感知梯度ε _ w ( w )的效率:

推导出 ( w )后,SAM基于 ( w )通过下面的等式更新当前的权重w:

3 实验

总体的实验方法是首先训练每个单模态模型,包括音频、视觉和文本数据,以便从有效的特征提取器中检索权重,然后将迁移学习应用到各种多模态模型中。

3.1 数据集

Distress Analysis Interview Corpus - Wizard of Oz ( DAIC-WOZ )数据集[ 10、17 ]包含189名参与者的临床访谈,旨在支持焦虑、抑郁和创伤后应激障碍( PTSD )等心理痛苦状况的诊断。在每次访谈过程中,同时记录多份不同格式、不同模态的资料。然而,在这项工作中只选择了声音记录,面部关键点,注视方向和转录,分别代表3个不同的输入数据域,即音频( A ),视觉( V )和文本( T )。此外,给定的GT是一个由8个条目组成的患者健康问卷抑郁量表( PHQ-8 ),表示抑郁的严重程度。PHQ-8 Score≥10意味着参与者正在经历一场MD [ 26 ]。尽管DAIC - WOZ数据集[ 10 ]包含了丰富的数据类型和特征,但它也包含了各种各样的错误和问题,如小规模数据集、不平衡数据集和标注错误等。这些问题会潜在地破坏模型性能,误导模型的注意力。

因此,一些技术被用来减轻这种负担,例如滑动窗口技术,性别平衡( GB ),PyTorch [ 33 ]中的加权随机采样器等。

3.2不同融合方法的有效性

在多模态训练过程中,我们重点关注两个方面:不同多模态的影响和个体融合方法的有效性。对于多模态,我们基于( 1 ) AVT模态和( 2 ) AV模态进行实验。对于融合方法,一共测试了八种不同的融合方法,可以分为传统的和加权的融合方法,如下所示:

此外,注意力融合方法类似于子注意力融合方法。主要的区别在于注意力融合层数的不同。而子注意力融合方法对8个子类中的每个子类都有单独的注意力融合层,而注意力融合方法只使用了一个共享的注意力层。

通过添加文本数据形成AVT - modality可以一致地提高大多数融合方法的准确性。子注意力融合与AVT取得最好的成绩,准确率为82.65 %,同时显示出令人满意的F1值为0.65。

3.3消融研究

SAM, BiLSTM, and MUSDL

Gender Depression Estimation

这表明了性别偏见现象在声学特征中所起作用的严重性,以及在音频预处理阶段对其进行处理的重要性。另一方面,视觉特征显示没有性别偏见的问题,性别准确性差异小于1 %,这也是可以理解的,因为人们可以想象,仅仅根据68个3D面部关键点来区分参与者的性别是多么具有挑战性。

此外,可以发现多模态模型的性别精度差异有减小的趋势,这意味着不同模态融合越多,这种声学性别偏向现象就越低。这是因为,通过融合不同的数据模态,模型可以从不同的输入来源中学习到不同的特征,并平衡性别偏见。

但在F1分数上的性别差异仍然是我们模型的一个局限性,也是未来的一个研究方向。

Participants Depression Estimation


http://www.kler.cn/a/420652.html

相关文章:

  • Rust学习笔记_12——闭包
  • AI 无人自动直播手机软件:备卓越的实时互动功能,革新直播体验的智能助手
  • 服务器数据恢复—EVA存储硬盘磁头和盘片损坏离线的数据恢复案例
  • C++:map容器——自定义数据类型进行自定义排序规则
  • git推送多个仓库
  • vue3+element-plus多选框全选与单选
  • 【QNX+Android虚拟化方案】123 - 如何配置qnx侧GPIO_IRQ中断和PMIC_GPIO_IRQ中断
  • 【Android】View工作原理
  • Linux 内核系统架构
  • Kafka-Consumer源码分析
  • USB 声卡全解析:提升音频体验的得力助手
  • 网络安全之常用安全设备功能及作用_设备管理器安全设备是什么
  • Runway 技术浅析(六):文本到视频(Text-to-Video)
  • GPT时代的BI革命:智能报表系统如何颠覆传统决策
  • qt音频实战
  • Vue 实现无线滚动效果
  • Linux下anaconda安装环境
  • Docker和Docker Compose部署方式的区别以及各自适用的场景(ChatGPT-4o回答)
  • WPF+MVVM案例实战与特效(三十一)- 封装一个加载动画的自定义控件
  • 将一个数组逆序输出。-多语言
  • 【SQL】实战--组合两个表
  • 一、文本预处理
  • mysql order by后进行limit分页查询出现重复数据
  • shell脚本30个案例(五)
  • Spring AI 框架介绍
  • WuCup网络安全技能大赛WP