当前位置：首页 > article >正文

经典 AEC 论文解读

article 2025/4/2 10:06:56

一、ACOUSTIC ECHO CANCELLATION WITH THE DUAL-SIGNAL TRANSFORMATION LSTM NETWORK

论文
代码
预训练模型

1.1 摘要

本文由 Nils L. Westhausen 和 Bernd T. Meyer 撰写，提出了一种基于双信号变换 LSTM 网络（DTLN）的实时声学回声消除（AEC）方法。DTLN 结合了短时傅里叶变换（STFT）和学习特征表示的堆叠网络方法，能够在时频域和时域中进行鲁棒的信息处理，同时保留相位信息。该模型在 60 小时的真实和合成回声场景上进行训练，训练过程中使用多语言语音、数据增强、额外的噪声和混响，以确保模型能够适应各种真实世界条件。实验结果表明，DTLN 方法在干净和嘈杂的回声条件下表现出色，显著减少了声学回声和额外噪声，并在平均意见评分（MOS）方面超越了 AEC 挑战基线 0.30。

1.2 引言

声学回声在音频和视频通话中是一个普遍存在的问题，尤其是在扬声器的声音被近端扬声器播放并被近端麦克风拾取时。用户听到自己声音的回声会感到烦恼，增加了听力负担，这在可靠的远程通信场景中尤为重要。传统的回声消除方法通常依赖自适应滤波器（如归一化最小均方（NLMS））来估计扬声器和麦克风之间的脉冲响应，并用此估计的信号对远端信号进行滤波。然而，在双说话场景中，近端语音信号的存在会导致滤波器无法正确适应或发散。

1.3 方法

1.3.1 问题表述

在声学回声消除系统中，麦克风信号 $y (n)$ 可以表示为回声 $d (n)$ 、近端语音信号 $s (n)$ 和背景噪声 $v (n)$ 的组合：

$y (n) = s (n) + v (n) + d (n)$

其中，回声信号 $d (n)$ 是远端麦克风信号 $x (n)$ 与传输路径的脉冲响应 $h (n)$ 的卷积。目标是从麦克风信号中分离出近端语音信号 $s (n)$ 。

1.3.2 DTLN 模型

DTLN 模型的核心是将 STFT 与基于 1D 卷积层的学习特征表示相结合。该模型的设计基于比率掩模（ratio masking），在时频域和学习特征域中都进行掩模操作。这种设计使得模型能够利用 STFT 幅度信息以及学习到的特征表示的信息。

输入特征：模型的输入是近端和远端麦克风信号的归一化对数功率谱，经过即时层归一化（iLN）处理，以消除信号幅度变化的影响。
模型结构：网络由两个分离核心组成，每个核心包含两个 LSTM 层和一个全连接层，使用 sigmoid 激活函数来预测掩模。第一核心负责预测时间频率掩模，应用于近端麦克风信号的 STFT 幅度；第二核心使用学习的特征表示进行更精细的处理。

1.3.3 数据集和数据准备

该研究使用了两个训练数据集：一个是合成数据集，另一个是实际录音数据集。合成数据集包含 10,000 个示例，涵盖了单说话、双说话、近端噪声、远端噪声和各种非线性失真情况。实际数据集则包含来自不同真实环境的录音。训练集包含 60 小时的回声场景，使用多语言语音数据进行数据增强，以提高模型的鲁棒性。

1.4 实验结果

1.4.1 客观评估

在 AEC-Challenge 的盲测集上，DTLN-aec 模型表现出色。客观评估结果显示，该模型在各种噪声条件下均优于基线模型。具体而言，模型在干净和嘈杂的条件下的平均意见评分（MOS）显著提高，表明其在去除声学回声方面的有效性。

1.4.2 主观评估

主观评估显示，在所有条件下，DTLN-aec 模型的表现优于基线，这表明该模型能够有效地保留语音质量，同时去除回声。

1.5 讨论

DTLN-aec 模型在不同规模下的表现良好，较小的模型也能在嘈杂条件下取得良好效果。所有模型在双说话测试集上均显示出稳定的改进。研究表明，模型的参数规模与性能之间存在正相关关系，较大的模型能够更好地处理复杂的回声消除任务。

1.6 结论

该研究表明，双信号变换 LSTM 网络（DTLN-aec）能够成功应用于实时声学回声消除。DTLN-aec 在 AEC-Challenge 的盲测试集上表现出色，模型通过广泛的数据增强训练，结果显示出其在真实世界应用中的鲁棒性。

二、Deep Learning for Acoustic Echo Cancellation in Noisy and Double-Talk Scenarios

论文地址# 经典 AEC 论文解读

二、Deep Learning for Acoustic Echo Cancellation in Noisy and Double-Talk Scenarios

2.1 摘要

在这篇论文中，Hao Zhang 和 DeLiang Wang 提出了一个基于深度学习的声学回声消除（AEC）方法，特别关注在嘈杂和双说话场景下的应用。传统的 AEC 方法通常依赖自适应算法来估计声学脉冲响应，而本文将 AEC 视为一个监督的语音分离问题。通过使用双向长短时记忆（BLSTM）网络，研究者从近端和远端信号的混合中提取特征，以估计理想比率掩模（IRM），从而实现回声的分离和抑制。实验结果表明，该方法在双说话、背景噪声和非线性失真场景下有效地去除了回声，并且对未训练的说话者具有良好的泛化能力。

2.2 引言

声学回声在语音通信中是一个普遍存在的问题，尤其是在扬声器的声音被近端麦克风拾取时。用户会听到自己声音的延迟回声，这种现象极为烦人，增加了交流的困难。传统的 AEC 方法通常依赖自适应滤波器（如 NLMS）来估计扬声器和麦克风之间的脉冲响应。然而，当双说话场景出现时，近端语音信号的存在会严重影响自适应算法的性能，导致滤波器无法正确适应或发散。

2.3 方法

2.3.1 问题表述

在声学回声消除系统中，麦克风接收到的信号 $d (n)$ 可以表示为回声 $y (n)$ 、近端语音信号 $s (n)$ 和背景噪声 $v (n)$ 的组合：

$d (n) = s (n) + y (n) + v (n)$

目标是去除回声信号 $y (n)$ ，保留近端信号 $s ˆ (n)$ 。

2.3.2 特征提取

输入信号 $y (n)$ 和远端信号 $x (n)$ 被分帧处理，每帧长度为 20 ms，帧移为 10 ms。然后对每个信号应用短时傅里叶变换（STFT），生成频域特征。具体而言，使用 320 点的 STFT，结果为 161 个频率 bin。为提高模型的鲁棒性，采用对数幅度谱（LOG-MAG）特征。特征提取的过程确保了模型可以有效地处理频域信息。

2.3.3 网络架构

本文使用双向 LSTM（BLSTM）作为主要的学习模型。BLSTM 由两个单向 LSTM 组成，一个用于正向处理信号，另一个用于反向处理信号。网络包含四个隐藏层，每层有 300 个单元，输出层为全连接层。由于 IRM 的值范围为 [0, 1]，因此在输出层使用 sigmoid 函数作为激活函数。该网络能够有效捕捉信号的时间依赖性，更好地处理语音信号。

2.3.4 训练目标

训练目标为理想比率掩模（IRM），可定义为：

$\text{IRM}(m, c) = \frac{S^2(m, c)}{S^2(m, c) + D^2(m, c) + V^2(m, c)}$

其中 $S^2(m, c)$ 、 $D^2(m, c)$ 和 $V^2(m, c)$ 分别表示近端信号、回声和背景噪声在时间频率单位 (m) 和频率 (c) 的能量。使用 IRM 作为训练目标使得模型能够专注于分离近端语音信号。

2.4 实验结果

2.4.1 性能指标

使用回声返回损失增强（ERLE）和感知语音质量评估（PESQ）作为评估模型性能的指标。ERLE 用于评估系统的回声衰减，而 PESQ 用于评估双说话期间的语音质量。这些指标能够客观地反映模型在不同场景下的表现。

2.4.2 性能评估

实验结果表明，所提出的方法在双说话、背景噪声和非线性失真场景下有效去除回声。BLSTM 方法在各种条件下均优于传统的 NLMS 方法，尤其是在处理复杂的双说话场景时。通过对比不同模型的性能，发现 BLSTM 模型在处理回声时表现出色。

2.5 结论

本文提出了一种基于 BLSTM 的有监督声学回声消除方法，能够有效处理双说话、背景噪声和非线性失真场景。实验结果表明，该方法在去除声学回声方面具有良好的性能，并能够对未训练的说话者进行良好的泛化。

三、RESIDUAL ACOUSTIC ECHO SUPPRESSION BASED ON EFFICIENT MULTI-TASK CONVOLUTIONAL NEURAL NETWORK

论文地址

三、RESIDUAL ACOUSTIC ECHO SUPPRESSION BASED ON EFFICIENT MULTI-TASK CONVOLUTIONAL NEURAL NETWORK

3.1 摘要

本文由 Xinquan Zhou 和 Yanhong Leng 撰写，提出了一种实时的残余声学回声抑制（RAES）方法，利用高效的卷积神经网络（CNN）。在多任务学习的背景下，双说话检测器作为辅助任务被引入，以提高 RAES 的性能。训练标准基于一种新颖的损失函数，称为抑制损失，用于平衡残余回声的抑制和近端信号的失真。实验结果表明，该方法能够在不同场景下有效抑制残余回声。

3.2 引言

声学回声消除（AEC）在语音通信系统中至关重要，尤其是在麦克风和扬声器耦合的情况下。传统的 AEC 方法通常由自适应线性滤波器（AF）和非线性回声处理器（NLP）组成。然而，这些方法在处理非线性回声时面临许多挑战，尤其是在双说话场景中，NLP 可能会显著损害近端信号。近年来，机器学习被引入到声学回声消除中，取得了一定的进展。

3.3 方法

3.3.1 问题表述

在 AEC 框架中，麦克风接收到的信号 $d (n)$ 是近端信号 $s (n)$ 和回声信号 $y (n)$ 的组合：

$d (n) = s (n) + y (n)$

目标是去除回声信号 $y (n)$ ，同时保留近端信号 $s ˆ (n)$ 。

3.3.2 特征提取

AF 模块用于消除麦克风信号中的部分线性回声。输入特征包括 AF 输出误差信号 (e(n)) 和远端信号 (u(n)) 的对数谱。使用短时傅里叶变换（STFT）将信号转换为频域，生成特征输入。具体而言，使用带有平方根汉宁窗的 STFT 处理信号，以提取有效的频域特征。特征提取的过程确保了模型可以有效地处理频域信息。

3.3.3 网络架构

本文的网络架构受到 MobileNetV2 的启发，采用深度可分离卷积来降低计算成本。网络结构包括多个残差瓶颈模块，利用残差连接融合高维和低维特征。具体而言，网络的整体架构如下：

输入层：接收经过 STFT 处理的信号特征。
卷积层：使用深度可分离卷积来提取特征，以减少计算复杂度。
残差瓶颈模块：通过残差连接来融合不同层次的特征，提高模型的表达能力。
输出层：生成相位敏感掩模（PSM），用于后续的信号重建。

3.3.4 训练目标和损失函数

在训练过程中，本文使用相位敏感掩模（PSM）作为训练目标。PSM 的定义为：

$\text{PSM}(l, k) = \frac{|S(l, k)|}{|E(l, k)|} \cos(\theta)$

其中 (S(l, k)) 和 (E(l, k)) 分别表示近端信号和 AF 输出信号在第 (l) 帧、第 (k) 频率下的值。PSM 被截断在 [0, 1] 之间，以确保输出的有效性。

损失函数采用均方误差（MSE），但为了更好地平衡回声抑制和近端信号保留，本文引入了一种参数化的泄露 ReLU 函数来计算加权均方距离。抑制损失的定义如下：

$\Delta(l) = \begin{cases} \frac{1}{K} \sum_{k=0}^{K-1} [g_t(l, k) - g_e(l, k)]^2, & \text{if } g_t(l, k) < g_e(l, k) \\ \frac{1}{K} \sum_{k=0}^{K-1} \{ \alpha_k [g_t(l, k) - g_e(l, k)] \}^2, & \text{otherwise} \end{cases}$

其中 $g_t(l, k)$ 和 $g_e(l, k)$ 分别是目标和估计的相位敏感掩模。

3.4 实验结果

3.4.1 数据集

在实验中，使用 TIMIT 和 THCHS30 数据集生成训练、验证和测试数据集。训练数据集随机选择 423 名说话者的 4230 个语音样本和 40 名说话者的 5690 个语音样本。验证和测试数据集包括 160 名不同说话者的 1600 个样本。

3.4.2 性能比较

在不同的信号条件下，RAES 方法在回声抑制性能上优于传统的 AEC 方法。实验结果表明，RAES 能够有效抑制残余回声，并在双说话和背景噪声场景中表现出色。具体而言，RAES 方法在处理复杂的双说话场景时表现出色，能够有效保留语音质量。

3.5 结论

本文提出了一种高效的多任务残余声学回声抑制方法。该方法在不同的模拟和真实环境下进行了评估，实验结果显示 RAES 在回声抑制性能上优于传统方法，并能够在大多数个人设备上实时运行。

四、A DEEP HIERARCHICAL FUSION NETWORK FOR FULLBAND ACOUSTIC ECHO CANCELLATION

在这里插入图片描述

在这篇论文中，作者提出了一种深度层次融合网络（Deep Hierarchical Fusion Network, DHF），旨在改进全带宽（48kHz）声学回声消除（AEC）的性能，同时确保与自动语音识别（ASR）的兼容性。本文将深入分析该系统的技术实现，包括其架构、关键模块及其在ICASSP 2022 AEC挑战赛中的表现。

4.1. 系统概述

近年来，基于深度学习的声学回声消除方法取得了显著进展，尤其是在宽带（16kHz）AEC任务中。传统的信号处理方法逐渐被深度学习方法所取代。本文提出的DHF网络通过结合内部融合（intra-network fusion）和网络间融合（inter-network fusion），进一步提升了AEC性能。该系统不仅扩展了宽带AEC的能力，还实现了全带宽AEC，并与ASR功能兼容。

声学回声消除：AEC的目的是消除在语音通信中因远端信号引起的回声，传统方法往往依赖于线性滤波和自适应滤波技术。
深度学习的优势：随着深度学习技术的发展，DNN在处理复杂信号方面表现出色，能够捕捉到信号中的非线性特征。

4.2. 技术实现

4.2.1 深度层次融合网络（DHF）

DHF网络的设计包括多个模块，主要分为宽带网络和高带宽网络。系统的输入是48kHz的近端和远端信号，这些信号经过线性AEC模块处理后，进行时频域转换，得到相应的时频表示。

输入信号处理：输入的48kHz近端和远端信号首先经过线性AEC模块，利用SpeexDSP实现，采用160ms的自适应滤波器长度，30ms的帧大小和10ms的帧移。
时频变换：通过1440点（30ms）短时傅里叶变换（STFT）将时域信号转换为时频域表示，得到的时频表示进一步分为宽带（0-16kHz）和高带（16-48kHz）部分。

4.2.2 内部融合（Intra-network Fusion）

内部融合通过在宽带GRU-CrossNet中引入交叉连接来实现。该网络结构的目标是同时建模语音和干扰信号（包括噪声和回声）。

4.2.2.1 GRU-CrossNet架构

网络结构：GRU-CrossNet采用两条并行分支，分别用于处理语音和干扰信号。输入为线性AEC输出、近端信号和远端信号的对数功率谱。
特征提取：通过卷积层提取特征，然后使用GRU层整合时间上下文信息，最后生成语音和干扰的幅度掩蔽。
交叉连接：在每个卷积层和GRU层之间添加交叉连接，以实现语音和干扰之间的有效融合。

4.2.2.2 超参数配置

卷积层：设置多个卷积层，具体参数包括通道数、卷积核大小、步幅等，详见论文中的表格。
GRU层：用于时间序列数据的建模，整合上下文信息，提高模型对时间变化的敏感度。

4.2.3 网络间融合（Inter-network Fusion）

网络间融合模块通过结合来自不同网络的输出，进一步提升AEC性能。

4.2.3.1 融合模块设计

输入信号：融合模块的输入包括宽带信号、估计的语音信号和其他相关信号。这些信号在通道维度上进行拼接，以形成融合网络的输入。
卷积和GRU层：融合网络包含多个卷积层和GRU层，最终生成融合后的输出信号。该网络通过学习得到各个子带的融合权重，从而有效结合不同AEC系统的输出。

4.2.3.2 融合权重

子带融合：为了避免在两个系统之间快速切换引入的伪影，融合权重通过学习得到，确保输出的平滑性和一致性。

4.3. 实验与结果

该系统在ICASSP 2022的AEC挑战赛中表现优异，获得了第二名。通过多阶段训练结构，该系统能够同时优化AEC损失和ASR损失，从而确保良好的语音增强和语音识别性能。

4.3.1 训练与损失函数

在训练过程中，采用了多损失策略，包括AEC损失和ASR损失。ASR损失通过预训练的ASR编码器获得，确保了系统在增强语音的同时，能够保持良好的识别性能。

多损失策略：结合AEC和ASR的损失函数，使得模型在优化过程中能够兼顾语音增强和语音识别的性能。

4.3.2 性能评估

根据论文，DHF网络具有14.4M的参数量，1.95GFLOPs的计算复杂度，以及1.029ms的单帧推理时间，展现了其在实时处理中的高效性。

评估指标：在ICASSP 2022 AEC挑战赛中，该系统在多个评估指标上表现优异，证明了其在实际应用中的有效性。

4.4. 结论

本文提出的深度层次融合网络（DHF）在全带宽声学回声消除任务中展示了良好的性能。通过内部和网络间融合的创新设计，该系统不仅提升了AEC性能，还兼顾了自动语音识别的需求，为未来的语音处理技术提供了新的思路和方法。未来的研究将进一步探索DHF网络在其他语音处理任务中的应用潜力，特别是在实时语音通信和多通道语音处理方面的应用。

查看全文

http://www.kler.cn/a/406705.html