经典 AEC 论文解读
一、ACOUSTIC ECHO CANCELLATION WITH THE DUAL-SIGNAL TRANSFORMATION LSTM NETWORK
- 论文
- 代码
- 预训练模型
1.1 摘要
本文由 Nils L. Westhausen 和 Bernd T. Meyer 撰写,提出了一种基于双信号变换 LSTM 网络(DTLN)的实时声学回声消除(AEC)方法。DTLN 结合了短时傅里叶变换(STFT)和学习特征表示的堆叠网络方法,能够在时频域和时域中进行鲁棒的信息处理,同时保留相位信息。该模型在 60 小时的真实和合成回声场景上进行训练,训练过程中使用多语言语音、数据增强、额外的噪声和混响,以确保模型能够适应各种真实世界条件。实验结果表明,DTLN 方法在干净和嘈杂的回声条件下表现出色,显著减少了声学回声和额外噪声,并在平均意见评分(MOS)方面超越了 AEC 挑战基线 0.30。
1.2 引言
声学回声在音频和视频通话中是一个普遍存在的问题,尤其是在扬声器的声音被近端扬声器播放并被近端麦克风拾取时。用户听到自己声音的回声会感到烦恼,增加了听力负担,这在可靠的远程通信场景中尤为重要。传统的回声消除方法通常依赖自适应滤波器(如归一化最小均方(NLMS))来估计扬声器和麦克风之间的脉冲响应,并用此估计的信号对远端信号进行滤波。然而,在双说话场景中,近端语音信号的存在会导致滤波器无法正确适应或发散。
1.3 方法
1.3.1 问题表述
在声学回声消除系统中,麦克风信号 y ( n ) y(n) y(n) 可以表示为回声 d ( n ) d(n) d(n)、近端语音信号 s ( n ) s(n) s(n) 和背景噪声 v ( n ) v(n) v(n) 的组合:
y ( n ) = s ( n ) + v ( n ) + d ( n ) y(n) = s(n) + v(n) + d(n) y(n)=s(n)+v(n)+d(n)
其中,回声信号 d ( n ) d(n) d(n) 是远端麦克风信号 x ( n ) x(n) x(n) 与传输路径的脉冲响应 h ( n ) h(n) h(n) 的卷积。目标是从麦克风信号中分离出近端语音信号 s ( n ) s(n) s(n)。
1.3.2 DTLN 模型
DTLN 模型的核心是将 STFT 与基于 1D 卷积层的学习特征表示相结合。该模型的设计基于比率掩模(ratio masking),在时频域和学习特征域中都进行掩模操作。这种设计使得模型能够利用 STFT 幅度信息以及学习到的特征表示的信息。
-
输入特征:模型的输入是近端和远端麦克风信号的归一化对数功率谱,经过即时层归一化(iLN)处理,以消除信号幅度变化的影响。
-
模型结构:网络由两个分离核心组成,每个核心包含两个 LSTM 层和一个全连接层,使用 sigmoid 激活函数来预测掩模。第一核心负责预测时间频率掩模,应用于近端麦克风信号的 STFT 幅度;第二核心使用学习的特征表示进行更精细的处理。
1.3.3 数据集和数据准备
该研究使用了两个训练数据集:一个是合成数据集,另一个是实际录音数据集。合成数据集包含 10,000 个示例,涵盖了单说话、双说话、近端噪声、远端噪声和各种非线性失真情况。实际数据集则包含来自不同真实环境的录音。训练集包含 60 小时的回声场景,使用多语言语音数据进行数据增强,以提高模型的鲁棒性。
1.4 实验结果
1.4.1 客观评估
在 AEC-Challenge 的盲测集上,DTLN-aec 模型表现出色。客观评估结果显示,该模型在各种噪声条件下均优于基线模型。具体而言,模型在干净和嘈杂的条件下的平均意见评分(MOS)显著提高,表明其在去除声学回声方面的有效性。
1.4.2 主观评估
主观评估显示,在所有条件下,DTLN-aec 模型的表现优于基线,这表明该模型能够有效地保留语音质量,同时去除回声。
1.5 讨论
DTLN-aec 模型在不同规模下的表现良好,较小的模型也能在嘈杂条件下取得良好效果。所有模型在双说话测试集上均显示出稳定的改进。研究表明,模型的参数规模与性能之间存在正相关关系,较大的模型能够更好地处理复杂的回声消除任务。
1.6 结论
该研究表明,双信号变换 LSTM 网络(DTLN-aec)能够成功应用于实时声学回声消除。DTLN-aec 在 AEC-Challenge 的盲测试集上表现出色,模型通过广泛的数据增强训练,结果显示出其在真实世界应用中的鲁棒性。
二、Deep Learning for Acoustic Echo Cancellation in Noisy and Double-Talk Scenarios
- 论文地址# 经典 AEC 论文解读
二、Deep Learning for Acoustic Echo Cancellation in Noisy and Double-Talk Scenarios
2.1 摘要
在这篇论文中,Hao Zhang 和 DeLiang Wang 提出了一个基于深度学习的声学回声消除(AEC)方法,特别关注在嘈杂和双说话场景下的应用。传统的 AEC 方法通常依赖自适应算法来估计声学脉冲响应,而本文将 AEC 视为一个监督的语音分离问题。通过使用双向长短时记忆(BLSTM)网络,研究者从近端和远端信号的混合中提取特征,以估计理想比率掩模(IRM),从而实现回声的分离和抑制。实验结果表明,该方法在双说话、背景噪声和非线性失真场景下有效地去除了回声,并且对未训练的说话者具有良好的泛化能力。
2.2 引言
声学回声在语音通信中是一个普遍存在的问题,尤其是在扬声器的声音被近端麦克风拾取时。用户会听到自己声音的延迟回声,这种现象极为烦人,增加了交流的困难。传统的 AEC 方法通常依赖自适应滤波器(如 NLMS)来估计扬声器和麦克风之间的脉冲响应。然而,当双说话场景出现时,近端语音信号的存在会严重影响自适应算法的性能,导致滤波器无法正确适应或发散。
2.3 方法
2.3.1 问题表述
在声学回声消除系统中,麦克风接收到的信号 d ( n ) d(n) d(n) 可以表示为回声 y ( n ) y(n) y(n)、近端语音信号 s ( n ) s(n) s(n) 和背景噪声 v ( n ) v(n) v(n) 的组合:
d ( n ) = s ( n ) + y ( n ) + v ( n ) d(n) = s(n) + y(n) + v(n) d(n)=s(n)+y(n)+v(n)
目标是去除回声信号 y ( n ) y(n) y(n),保留近端信号 s ˆ ( n ) sˆ(n) sˆ(n)。
2.3.2 特征提取
输入信号 y ( n ) y(n) y(n) 和远端信号 x ( n ) x(n) x(n) 被分帧处理,每帧长度为 20 ms,帧移为 10 ms。然后对每个信号应用短时傅里叶变换(STFT),生成频域特征。具体而言,使用 320 点的 STFT,结果为 161 个频率 bin。为提高模型的鲁棒性,采用对数幅度谱(LOG-MAG)特征。特征提取的过程确保了模型可以有效地处理频域信息。
2.3.3 网络架构
本文使用双向 LSTM(BLSTM)作为主要的学习模型。BLSTM 由两个单向 LSTM 组成,一个用于正向处理信号,另一个用于反向处理信号。网络包含四个隐藏层,每层有 300 个单元,输出层为全连接层。由于 IRM 的值范围为 [0, 1],因此在输出层使用 sigmoid 函数作为激活函数。该网络能够有效捕捉信号的时间依赖性,更好地处理语音信号。
2.3.4 训练目标
训练目标为理想比率掩模(IRM),可定义为:
IRM ( m , c ) = S 2 ( m , c ) S 2 ( m , c ) + D 2 ( m , c ) + V 2 ( m , c ) \text{IRM}(m, c) = \frac{S^2(m, c)}{S^2(m, c) + D^2(m, c) + V^2(m, c)} IRM(m,c)=S2(m,c)+D2(m,c)+V2(m,c)S2(m,c)
其中 S 2 ( m , c ) S^2(m, c) S2(m,c)、 D 2 ( m , c ) D^2(m, c) D2(m,c) 和 V 2 ( m , c ) V^2(m, c) V2(m,c) 分别表示近端信号、回声和背景噪声在时间频率单位 (m) 和频率 (c) 的能量。使用 IRM 作为训练目标使得模型能够专注于分离近端语音信号。
2.4 实验结果
2.4.1 性能指标
使用回声返回损失增强(ERLE)和感知语音质量评估(PESQ)作为评估模型性能的指标。ERLE 用于评估系统的回声衰减,而 PESQ 用于评估双说话期间的语音质量。这些指标能够客观地反映模型在不同场景下的表现。
2.4.2 性能评估
实验结果表明,所提出的方法在双说话、背景噪声和非线性失真场景下有效去除回声。BLSTM 方法在各种条件下均优于传统的 NLMS 方法,尤其是在处理复杂的双说话场景时。通过对比不同模型的性能,发现 BLSTM 模型在处理回声时表现出色。
2.5 结论
本文提出了一种基于 BLSTM 的有监督声学回声消除方法,能够有效处理双说话、背景噪声和非线性失真场景。实验结果表明,该方法在去除声学回声方面具有良好的性能,并能够对未训练的说话者进行良好的泛化。
三、RESIDUAL ACOUSTIC ECHO SUPPRESSION BASED ON EFFICIENT MULTI-TASK CONVOLUTIONAL NEURAL NETWORK
- 论文地址
三、RESIDUAL ACOUSTIC ECHO SUPPRESSION BASED ON EFFICIENT MULTI-TASK CONVOLUTIONAL NEURAL NETWORK
3.1 摘要
本文由 Xinquan Zhou 和 Yanhong Leng 撰写,提出了一种实时的残余声学回声抑制(RAES)方法,利用高效的卷积神经网络(CNN)。在多任务学习的背景下,双说话检测器作为辅助任务被引入,以提高 RAES 的性能。训练标准基于一种新颖的损失函数,称为抑制损失,用于平衡残余回声的抑制和近端信号的失真。实验结果表明,该方法能够在不同场景下有效抑制残余回声。
3.2 引言
声学回声消除(AEC)在语音通信系统中至关重要,尤其是在麦克风和扬声器耦合的情况下。传统的 AEC 方法通常由自适应线性滤波器(AF)和非线性回声处理器(NLP)组成。然而,这些方法在处理非线性回声时面临许多挑战,尤其是在双说话场景中,NLP 可能会显著损害近端信号。近年来,机器学习被引入到声学回声消除中,取得了一定的进展。
3.3 方法
3.3.1 问题表述
在 AEC 框架中,麦克风接收到的信号 d ( n ) d(n) d(n) 是近端信号 s ( n ) s(n) s(n) 和回声信号 y ( n ) y(n) y(n) 的组合:
d ( n ) = s ( n ) + y ( n ) d(n) = s(n) + y(n) d(n)=s(n)+y(n)
目标是去除回声信号 y ( n ) y(n) y(n),同时保留近端信号 s ˆ ( n ) sˆ(n) sˆ(n)。
3.3.2 特征提取
AF 模块用于消除麦克风信号中的部分线性回声。输入特征包括 AF 输出误差信号 (e(n)) 和远端信号 (u(n)) 的对数谱。使用短时傅里叶变换(STFT)将信号转换为频域,生成特征输入。具体而言,使用带有平方根汉宁窗的 STFT 处理信号,以提取有效的频域特征。特征提取的过程确保了模型可以有效地处理频域信息。
3.3.3 网络架构
本文的网络架构受到 MobileNetV2 的启发,采用深度可分离卷积来降低计算成本。网络结构包括多个残差瓶颈模块,利用残差连接融合高维和低维特征。具体而言,网络的整体架构如下:
- 输入层:接收经过 STFT 处理的信号特征。
- 卷积层:使用深度可分离卷积来提取特征,以减少计算复杂度。
- 残差瓶颈模块:通过残差连接来融合不同层次的特征,提高模型的表达能力。
- 输出层:生成相位敏感掩模(PSM),用于后续的信号重建。
3.3.4 训练目标和损失函数
在训练过程中,本文使用相位敏感掩模(PSM)作为训练目标。PSM 的定义为:
PSM ( l , k ) = ∣ S ( l , k ) ∣ ∣ E ( l , k ) ∣ cos ( θ ) \text{PSM}(l, k) = \frac{|S(l, k)|}{|E(l, k)|} \cos(\theta) PSM(l,k)=∣E(l,k)∣∣S(l,k)∣cos(θ)
其中 (S(l, k)) 和 (E(l, k)) 分别表示近端信号和 AF 输出信号在第 (l) 帧、第 (k) 频率下的值。PSM 被截断在 [0, 1] 之间,以确保输出的有效性。
损失函数采用均方误差(MSE),但为了更好地平衡回声抑制和近端信号保留,本文引入了一种参数化的泄露 ReLU 函数来计算加权均方距离。抑制损失的定义如下:
Δ ( l ) = { 1 K ∑ k = 0 K − 1 [ g t ( l , k ) − g e ( l , k ) ] 2 , if g t ( l , k ) < g e ( l , k ) 1 K ∑ k = 0 K − 1 { α k [ g t ( l , k ) − g e ( l , k ) ] } 2 , otherwise \Delta(l) = \begin{cases} \frac{1}{K} \sum_{k=0}^{K-1} [g_t(l, k) - g_e(l, k)]^2, & \text{if } g_t(l, k) < g_e(l, k) \\ \frac{1}{K} \sum_{k=0}^{K-1} \{ \alpha_k [g_t(l, k) - g_e(l, k)] \}^2, & \text{otherwise} \end{cases} Δ(l)={K1∑k=0K−1[gt(l,k)−ge(l,k)]2,K1∑k=0K−1{αk[gt(l,k)−ge(l,k)]}2,if gt(l,k)<ge(l,k)otherwise
其中 g t ( l , k ) g_t(l, k) gt(l,k)和 g e ( l , k ) g_e(l, k) ge(l,k)分别是目标和估计的相位敏感掩模。
3.4 实验结果
3.4.1 数据集
在实验中,使用 TIMIT 和 THCHS30 数据集生成训练、验证和测试数据集。训练数据集随机选择 423 名说话者的 4230 个语音样本和 40 名说话者的 5690 个语音样本。验证和测试数据集包括 160 名不同说话者的 1600 个样本。
3.4.2 性能比较
在不同的信号条件下,RAES 方法在回声抑制性能上优于传统的 AEC 方法。实验结果表明,RAES 能够有效抑制残余回声,并在双说话和背景噪声场景中表现出色。具体而言,RAES 方法在处理复杂的双说话场景时表现出色,能够有效保留语音质量。
3.5 结论
本文提出了一种高效的多任务残余声学回声抑制方法。该方法在不同的模拟和真实环境下进行了评估,实验结果显示 RAES 在回声抑制性能上优于传统方法,并能够在大多数个人设备上实时运行。
四、A DEEP HIERARCHICAL FUSION NETWORK FOR FULLBAND ACOUSTIC ECHO CANCELLATION
在这篇论文中,作者提出了一种深度层次融合网络(Deep Hierarchical Fusion Network, DHF),旨在改进全带宽(48kHz)声学回声消除(AEC)的性能,同时确保与自动语音识别(ASR)的兼容性。本文将深入分析该系统的技术实现,包括其架构、关键模块及其在ICASSP 2022 AEC挑战赛中的表现。
4.1. 系统概述
近年来,基于深度学习的声学回声消除方法取得了显著进展,尤其是在宽带(16kHz)AEC任务中。传统的信号处理方法逐渐被深度学习方法所取代。本文提出的DHF网络通过结合内部融合(intra-network fusion)和网络间融合(inter-network fusion),进一步提升了AEC性能。该系统不仅扩展了宽带AEC的能力,还实现了全带宽AEC,并与ASR功能兼容。
- 声学回声消除:AEC的目的是消除在语音通信中因远端信号引起的回声,传统方法往往依赖于线性滤波和自适应滤波技术。
- 深度学习的优势:随着深度学习技术的发展,DNN在处理复杂信号方面表现出色,能够捕捉到信号中的非线性特征。
4.2. 技术实现
4.2.1 深度层次融合网络(DHF)
DHF网络的设计包括多个模块,主要分为宽带网络和高带宽网络。系统的输入是48kHz的近端和远端信号,这些信号经过线性AEC模块处理后,进行时频域转换,得到相应的时频表示。
- 输入信号处理:输入的48kHz近端和远端信号首先经过线性AEC模块,利用SpeexDSP实现,采用160ms的自适应滤波器长度,30ms的帧大小和10ms的帧移。
- 时频变换:通过1440点(30ms)短时傅里叶变换(STFT)将时域信号转换为时频域表示,得到的时频表示进一步分为宽带(0-16kHz)和高带(16-48kHz)部分。
4.2.2 内部融合(Intra-network Fusion)
内部融合通过在宽带GRU-CrossNet中引入交叉连接来实现。该网络结构的目标是同时建模语音和干扰信号(包括噪声和回声)。
4.2.2.1 GRU-CrossNet架构
- 网络结构:GRU-CrossNet采用两条并行分支,分别用于处理语音和干扰信号。输入为线性AEC输出、近端信号和远端信号的对数功率谱。
- 特征提取:通过卷积层提取特征,然后使用GRU层整合时间上下文信息,最后生成语音和干扰的幅度掩蔽。
- 交叉连接:在每个卷积层和GRU层之间添加交叉连接,以实现语音和干扰之间的有效融合。
4.2.2.2 超参数配置
- 卷积层:设置多个卷积层,具体参数包括通道数、卷积核大小、步幅等,详见论文中的表格。
- GRU层:用于时间序列数据的建模,整合上下文信息,提高模型对时间变化的敏感度。
4.2.3 网络间融合(Inter-network Fusion)
网络间融合模块通过结合来自不同网络的输出,进一步提升AEC性能。
4.2.3.1 融合模块设计
- 输入信号:融合模块的输入包括宽带信号、估计的语音信号和其他相关信号。这些信号在通道维度上进行拼接,以形成融合网络的输入。
- 卷积和GRU层:融合网络包含多个卷积层和GRU层,最终生成融合后的输出信号。该网络通过学习得到各个子带的融合权重,从而有效结合不同AEC系统的输出。
4.2.3.2 融合权重
- 子带融合:为了避免在两个系统之间快速切换引入的伪影,融合权重通过学习得到,确保输出的平滑性和一致性。
4.3. 实验与结果
该系统在ICASSP 2022的AEC挑战赛中表现优异,获得了第二名。通过多阶段训练结构,该系统能够同时优化AEC损失和ASR损失,从而确保良好的语音增强和语音识别性能。
4.3.1 训练与损失函数
在训练过程中,采用了多损失策略,包括AEC损失和ASR损失。ASR损失通过预训练的ASR编码器获得,确保了系统在增强语音的同时,能够保持良好的识别性能。
- 多损失策略:结合AEC和ASR的损失函数,使得模型在优化过程中能够兼顾语音增强和语音识别的性能。
4.3.2 性能评估
根据论文,DHF网络具有14.4M的参数量,1.95GFLOPs的计算复杂度,以及1.029ms的单帧推理时间,展现了其在实时处理中的高效性。
- 评估指标:在ICASSP 2022 AEC挑战赛中,该系统在多个评估指标上表现优异,证明了其在实际应用中的有效性。
4.4. 结论
本文提出的深度层次融合网络(DHF)在全带宽声学回声消除任务中展示了良好的性能。通过内部和网络间融合的创新设计,该系统不仅提升了AEC性能,还兼顾了自动语音识别的需求,为未来的语音处理技术提供了新的思路和方法。未来的研究将进一步探索DHF网络在其他语音处理任务中的应用潜力,特别是在实时语音通信和多通道语音处理方面的应用。