TensorFlow面试整理-如何处理 TensorFlow 中的梯度消失或爆炸问题?
在深度学习中,梯度消失和梯度爆炸问题是神经网络训练中的常见问题,特别是在深层网络中(如 RNN、LSTM 或深度卷积神经网络)。这两个问题会导致训练过程中的梯度更新变得非常困难,从而影响模型的收敛速度和最终性能。
● 梯度消失:在反向传播中,梯度逐层缩小,导致前面的层无法获得足够的梯度更新。
● 梯度爆炸:梯度在反向传播中迅速增大,导致梯度值过大,模型参数更新过快,进而导致训练不稳定甚至溢出。
在 TensorFlow 中