语音算法的技术图谱和学习路径可概括为以下内容:
一、技术图谱
- 核心模块
- 信号预处理:包括降噪、归一化、预加重(提高语音质量)。
- 特征提取:常用MFCC(Mel频率倒谱系数)、LPCC(线性预测倒谱系数)、FBank等算法,将语音信号转换为多维向量。
- 声学模型:
- 传统方法:HMM(隐马尔可夫模型)、DTW(动态时间规整)。
- 深度学习方法:DNN(深度神经网络)、RNN/LSTM(循环神经网络)、端到端模型(如CTC、注意力机制)。
- 语言模型:统计N元语言模型、基于深度学习的模型(如Transformer),用于预测词序列。
- 解码器:结合声学与语言模型,输出最优结果(如WFST框架)。