当前位置: 首页 > article >正文

Audio-Visual Speech Enhancement(视听语音增强)领域近三年研究进展与国内团队及手机厂商动态分析

一、视听语音增强领域近三年研究进展
  1. 多模态融合与模型轻量化

    • 多模态特征融合:中国科学技术大学团队提出通过引入超声舌头图像和唇部视频的联合建模,结合知识蒸馏技术,在训练阶段利用教师模型传递舌部运动知识,从而在推断时仅依赖唇部视频即可提升语音增强效果。此外,中科院声学所提出基于泰勒展开的模型架构,将幅度-相位解耦与空间-谱域解耦重新建模,提升算法可解释性并优化性能。
    • 轻量化模型设计:中国科大与腾讯天籁实验室合作提出轻量级音视频语音增强模型M3Net,通过多尺度特征聚合策略(如多尺度残差网络)在减少参数量的同时保持性能,适用于移动端部署。
  2. 相位谱优化与鲁棒性提升

    • 传统语音增强多关注幅度谱,而中科大团队提出的MP-SENet首次实现幅度和相位谱的并行去噪,通过抗卷绕损失函数优化相位预测,显著提升语音谐波恢复效果(PESQ得分达3.50)。
    • 鲁棒性方面,中科院声学所团队提出基于泰勒展开的端到端模型,通过替换不稳定数值操作为可学习模块,增强了算法在低信噪比环境下的稳定性。

http://www.kler.cn/a/549226.html

相关文章:

  • 【函数题】6-10 二分查找
  • 【LeetCode】438.找到字符串中所有的字母异位词
  • 请解释设备像素、CSS 像素、设备独立像素、DPR、PPI 之间的区别?
  • 详解如何使用Pytest内置Fixture tmp_path 管理临时文件
  • Redis之持久化
  • VUE3环境搭建
  • 【iOS】SwiftUI状态管理
  • Kotlin 2.1.0 入门教程(十八)函数式接口
  • AI与SEO协同:智能关键词挖掘与精准部署策略
  • 2025年前端工程师职业发展的系统性应聘规划
  • 深度学习(1)-简单神经网络示例
  • 【力扣】98.验证搜索二叉树
  • 2025 N1CTF crypto 复现
  • linux-5.10.110内核源码分析 - bcm2711 pcie BAR地址分配
  • Vue 3 30天精进之旅:Day 26 - SSR与Nuxt.js
  • Linux、Docker与Redis核心知识点与常用命令速查手册
  • haproxy实现MySQL服务器负载均衡
  • 用队列实现栈
  • pycharm上传github问题:rejected
  • 基于fastadmin快速搭建导航站和API接口站点系统源码