当前位置: 首页 > article >正文

基于Transformer的语音障碍分析方法

基于Transformer的语音障碍分析方法

原文:Voice Disorder Analysis: a Transformer-based Approach

引言

语音障碍的重要性

  • 语音障碍严重影响患者的生活质量,早期诊断和治疗至关重要。
  • 自动化工具用于检测和分类这些障碍具有重要意义。

现有挑战

  • 缺乏病理语音数据,导致难以有效使用强大模型。
  • 病理语音数据复杂且多样性高,不同类型的录音(如句子朗读和持续元音发音)增加了诊断难度。

解决方案概述

  • 提出了一种基于Transformer的新方法,直接处理原始语音信号。
  • 通过生成合成数据和数据增强来解决数据短缺问题。
  • 使用Mixture of Experts (MoE)集成模型,同时考虑多种录音类型。

方法论

数据生成与增强

合成数据创建
  • 使用Text-to-Speech (TTS)技术生成健康和病理语音,确保生成的语音能准确反映特定类别的特征。
  • 应用强大的数据增强管道(包括音调变化、时间拉伸和噪声添加),以丰富和平衡训练数据集。
Mixture of Experts (MoE)
  • 训练多个Transformer模型,分别针对不同类型的录音(如句子朗读和持续元音发音)。
  • 使用浅层MoE框架对所有模型的预测进行对齐,选择置信度最高的预测结果。
  • 对每个模型进行不同的预训练,以充分利用不同数据集的优势。

实验设置

数据集

  • 使用两个公开数据集(SVD和AVFAD)和一个内部意大利数据集(IPV)。
  • SVD:包括德语语音和电声门图数据,重点关注句子朗读和正常音调的元音发音。
  • AVFAD:包含葡萄牙语语音,涵盖各种语音任务。
  • IPV:新收集的意大利病理语音数据集,包括视频喉镜检查、感知语音评估和声学语音分析。

模型与训练过程

  • 比较了1D-CNN、2D-CNN和纯Transformer模型(如wav2vec 2.0、WavLM和HuBERT)。
  • 使用10折交叉验证,并应用强大的数据增强管道。

结果与讨论

语音障碍检测

  • 提出的方法在AUC指标上显著优于其他模型,特别是在SVD、AVFAD和IPV数据集上的表现尤为突出。
  • 使用合成数据和数据增强,结合MoE集成模型,显著提升了模型的泛化能力。

语音障碍分类

  • 在多标签分类任务中,提出的方法在F1宏平均值上有显著提升,特别是对于不平衡类别的情况。
  • 初始预训练进一步增强了分类任务的性能。

消融研究

  • 数据增强和合成数据的引入显著提高了模型性能,尤其是在IPV数据集上。
  • 使用MoE集成模型并进行专门预训练(LibriSpeech和Audioset)进一步提升了性能。

合成数据的泛化性能

  • 仅使用合成数据训练并在真实数据上测试,模型性能仍然显著高于随机水平,表明合成数据的质量较高。

结论

主要贡献

  • 提出了新的方法,通过强数据合成和增强策略以及Transformer模型集成,显著提升了语音障碍检测和分类任务的性能。

局限性与未来工作

  • 模型规模较大,MoE集成模型使模型大小翻倍。未来可以探索共享权重的方法。
  • 模型在专家指导下录制的数据上训练,未来将扩展到现实场景中,嵌入基于Web的应用程序,部署在多个私人和公共耳鼻喉科诊所。

致谢

资助信息

  • 本研究部分由FAIR - Future Artificial Intelligence Research资助,并获得欧盟Next-GenerationEU项目的资金支持。

参考文献

  • 列举了相关领域的参考文献,涵盖了语音障碍的流行病学研究、深度学习在医学中的应用等。

http://www.kler.cn/a/558075.html

相关文章:

  • MAC快速本地部署Deepseek (win也可以)
  • 工业机器视觉的“眼睛”:如何利用镜头获取精准图像
  • [含文档+PPT+源码等]精品大数据项目-Django基于机器学习实现的市区游客满意度可视化分析系统
  • 【论文阅读】SAM-CP:将SAM与组合提示结合起来的多功能分割
  • Uniapp 设计思路全分享
  • DeepSeek R1/V3满血版——在线体验与API调用
  • Error [ERR_REQUIRE_ESM]: require() of ES Module
  • MySQL的Union和OR查询
  • Vite 和 Webpack 的区别和选择
  • 靶场之路-Kioptix Level-1 mod_ssl 缓冲区溢出漏洞
  • CDefFolderMenu_MergeMenu函数分析之添加了分割线和属性菜单项两项
  • 《网络安全入门实战手册》
  • 星途汽车掉队?2024销量增速回落,“星纪元”序列后劲不足
  • yum安装时使用指定的nvidia-docker.repo
  • 算法与数据结构(环形链表)
  • Redis数据库面试——数据结构类型知识
  • 市场趋势分析与交易策略优化
  • 网络安全高级软件编程技术
  • 京东外卖骑手全部缴纳五险一金
  • 【云安全】云原生-Docker(六)Docker API 未授权访问