基于Transformer的语音障碍分析方法
基于Transformer的语音障碍分析方法
原文:Voice Disorder Analysis: a Transformer-based Approach
引言
语音障碍的重要性
- 语音障碍严重影响患者的生活质量,早期诊断和治疗至关重要。
- 自动化工具用于检测和分类这些障碍具有重要意义。
现有挑战
- 缺乏病理语音数据,导致难以有效使用强大模型。
- 病理语音数据复杂且多样性高,不同类型的录音(如句子朗读和持续元音发音)增加了诊断难度。
解决方案概述
- 提出了一种基于Transformer的新方法,直接处理原始语音信号。
- 通过生成合成数据和数据增强来解决数据短缺问题。
- 使用Mixture of Experts (MoE)集成模型,同时考虑多种录音类型。
方法论
数据生成与增强
合成数据创建
- 使用Text-to-Speech (TTS)技术生成健康和病理语音,确保生成的语音能准确反映特定类别的特征。
- 应用强大的数据增强管道(包括音调变化、时间拉伸和噪声添加),以丰富和平衡训练数据集。
Mixture of Experts (MoE)
- 训练多个Transformer模型,分别针对不同类型的录音(如句子朗读和持续元音发音)。
- 使用浅层MoE框架对所有模型的预测进行对齐,选择置信度最高的预测结果。
- 对每个模型进行不同的预训练,以充分利用不同数据集的优势。
实验设置
数据集
- 使用两个公开数据集(SVD和AVFAD)和一个内部意大利数据集(IPV)。
- SVD:包括德语语音和电声门图数据,重点关注句子朗读和正常音调的元音发音。
- AVFAD:包含葡萄牙语语音,涵盖各种语音任务。
- IPV:新收集的意大利病理语音数据集,包括视频喉镜检查、感知语音评估和声学语音分析。
模型与训练过程
- 比较了1D-CNN、2D-CNN和纯Transformer模型(如wav2vec 2.0、WavLM和HuBERT)。
- 使用10折交叉验证,并应用强大的数据增强管道。
结果与讨论
语音障碍检测
- 提出的方法在AUC指标上显著优于其他模型,特别是在SVD、AVFAD和IPV数据集上的表现尤为突出。
- 使用合成数据和数据增强,结合MoE集成模型,显著提升了模型的泛化能力。
语音障碍分类
- 在多标签分类任务中,提出的方法在F1宏平均值上有显著提升,特别是对于不平衡类别的情况。
- 初始预训练进一步增强了分类任务的性能。
消融研究
- 数据增强和合成数据的引入显著提高了模型性能,尤其是在IPV数据集上。
- 使用MoE集成模型并进行专门预训练(LibriSpeech和Audioset)进一步提升了性能。
合成数据的泛化性能
- 仅使用合成数据训练并在真实数据上测试,模型性能仍然显著高于随机水平,表明合成数据的质量较高。
结论
主要贡献
- 提出了新的方法,通过强数据合成和增强策略以及Transformer模型集成,显著提升了语音障碍检测和分类任务的性能。
局限性与未来工作
- 模型规模较大,MoE集成模型使模型大小翻倍。未来可以探索共享权重的方法。
- 模型在专家指导下录制的数据上训练,未来将扩展到现实场景中,嵌入基于Web的应用程序,部署在多个私人和公共耳鼻喉科诊所。
致谢
资助信息
- 本研究部分由FAIR - Future Artificial Intelligence Research资助,并获得欧盟Next-GenerationEU项目的资金支持。
参考文献
- 列举了相关领域的参考文献,涵盖了语音障碍的流行病学研究、深度学习在医学中的应用等。