当前位置：首页 > article >正文

Audio-Visual Speech Enhancement（视听语音增强）领域近三年研究进展与国内团队及手机厂商动态分析

article 2025/2/22 15:16:38

多模态融合与模型轻量化
- 多模态特征融合：中国科学技术大学团队提出通过引入超声舌头图像和唇部视频的联合建模，结合知识蒸馏技术，在训练阶段利用教师模型传递舌部运动知识，从而在推断时仅依赖唇部视频即可提升语音增强效果。此外，中科院声学所提出基于泰勒展开的模型架构，将幅度-相位解耦与空间-谱域解耦重新建模，提升算法可解释性并优化性能。
- 轻量化模型设计：中国科大与腾讯天籁实验室合作提出轻量级音视频语音增强模型M3Net，通过多尺度特征聚合策略（如多尺度残差网络）在减少参数量的同时保持性能，适用于移动端部署。
相位谱优化与鲁棒性提升
- 传统语音增强多关注幅度谱，而中科大团队提出的MP-SENet首次实现幅度和相位谱的并行去噪，通过抗卷绕损失函数优化相位预测，显著提升语音谐波恢复效果（PESQ得分达3.50）。
- 鲁棒性方面，中科院声学所团队提出基于泰勒展开的端到端模型，通过替换不稳定数值操作为可学习模块，增强了算法在低信噪比环境下的稳定性。
跨