当前位置: 首页 > article >正文

论文笔记:D-vlog 用于抑郁症检测的多模态数据集

整理了AAAI2022 D-vlog: Multimodal Vlog Dataset for Depression Detection 论文的阅读笔记

  • 背景
  • 方法
    • 特征提取
    • 模型
  • 实验
    • 数据集
    • 主实验
    • 不同模态的性能
    • 性别的影响

背景

  以往关于抑郁症检测的工作大多集中在实验室环境下对抑郁症个体的检测,难以在实践中推广。本文提出了一个多模态抑郁症数据集D-Vlog,由从YouTube收集的961个vlog(即约160小时)组成,并手工标注为抑郁/非抑郁,表1展示了D-vlog与其他抑郁症检测数据集的比较。这是一个视听融合的多模态二分类任务。
在这里插入图片描述

方法

  本文提出了一个多模态深度学习模型从收集的数据中提取的声学和视觉特征来检测抑郁症。采用交叉注意机制来有效地捕捉声音和视觉特征之间的关系,并为抑郁检测生成有用的多模态表示。

特征提取

  首先将每个视频日志的音频序列分割成秒。从每个音频片段(一秒)中提取25个低电平声学描述符(LLDs)。对于每个片段的25个特征取平均值,将所有片段连接起来,得到音频向量。
  对于视觉特征,使用dlib,这是一个著名的用于人脸识别和验证等计算机视觉任务的开源软件。在vlog中每帧(1 FPS)提取68个面部坐标(即x和y坐标),并通过连接每个x和y坐标获得136维向量。如果在帧中没有检测到人脸,则用零向量替换。
  特征提取的过程如图二所示。
在这里插入图片描述

模型

  本文提出了一个基于多模态视听融合的深度学习方法,称之为“Depression Detector”,该模型由以下组件组成:(1) 单峰变压器编码器,(2) 多峰变压器编码器,以及 (3) 检测层。如图三所示:
在这里插入图片描述
  本文的模型实际上就是三个Transformer模块。以声学和视觉特征向量作为输入,两个单峰Transformer编码器生成单峰表示。接下来,多模态Transformer编码器整合声音和视觉单模态表示,以生成给定vlog的最终表示。通过学习多模态表示,抑郁检测层最终预测出vlog的抑郁标签。使用的损失函数就是二元交叉熵。

实验

数据集

  将数据集以7:1:2的比例分成训练集、验证集和测试集,数据集中还有一个性别参数,如表3所示:
在这里插入图片描述

主实验

  本文所用的baseline都是比较简单的,不再赘述,实验结果如表4所示。
在这里插入图片描述
  我们可以观察到,所有融合基线模型的性能都低于所提出的模型。这表明采用交叉注意的融合方法可以跨模态捕获有用的知识。与基线比较,发现BLSTM和TFN比传统的机器学习方法如LR、SVM和RF具有更高的性能。这是因为BLSTM和TFN被设计为考虑输入特征的顺序信息,而传统的机器学习模型无法学习这些信息。建议的模型达到65.57%的加权平均召回率和63.50%的加权平均f1得分。这表明所提出的两级变压器编码器和多模态融合方法可以生成捕捉抑郁说话人明显特征的表征。

不同模态的性能

  为了分析每种模态(即音频和视觉)对检测抑郁症的重要性,本文对每种模态训练的单模态模型进行了性能分析。结果如表5所示,用声学特征训练的模型比用视觉特征训练的模型获得了更高的性能(加权平均f1得分的58.55%)。也就是说,在抑郁症检测中,声学特征比视觉特征更有用。
在这里插入图片描述

性别的影响

为了研究性别如何影响对抑郁的感知。首先用特定的性别(即男性或女性)训练和验证建议的模型。与之前的工作一致,该模型在男性非语言特征集上的抑郁检测性能高于女性集。这意味着,在视频博客中,男性抑郁者的言语和面部表情往往表现出与非抑郁男性不同的明显指标。
在这里插入图片描述


http://www.kler.cn/a/355284.html

相关文章:

  • 费舍尔信息矩阵全面讲述
  • FPGA的DMA应用——pcileech
  • C++的封装(十四):《设计模式》这本书
  • mac_录屏
  • 【Golang 面试题】每日 3 题(六)
  • Go singleflight库源码分析
  • 智慧园区能带来哪些便利?
  • 基于SpringBoot+Vue+uniapp微信小程序的婚庆摄影小程序的详细设计和实现(源码+lw+部署文档+讲解等)
  • CentOS 7- 配置阿里镜像源
  • HTML_文本标签
  • MySQL【知识改变命运】05
  • 计数型信号量
  • 【C语言】函数指针
  • 什么是ERP?快速理解ERP系统与ERP软件的区别
  • Python 数值计算与数值分析基础
  • 拿到snp的rawdata后如何使用GATK进行筛选(GATK硬筛选文档翻译)
  • 基于BERT的语义分析实现(论文复现)
  • 51单片机的超声波视力保护仪【proteus仿真+程序+报告+原理图+演示视频】
  • PCL 点云配准-4PCS算法(粗配准)
  • Tbox编译注意问题
  • java基于SpringBoot+Vue+uniapp微信小程序的自助点餐系统的详细设计和实现(源码+lw+部署文档+讲解等)
  • 基于Springboot+Vue的宠物援助平台(含源码+数据库)
  • 【编程语言】Kotlin快速入门 - 集合与Lambda
  • 删除 Word 空白页的 3 种方法总结
  • 中标麒麟v5安装qt512.12开发软件
  • Python进阶知识2