当前位置：首页 > article >正文

激活函数篇 02 —— 双曲正切函数tanh

article 2025/2/11 1:27:48

本篇文章收录于专栏【机器学习】

以下是激活函数系列的相关的所有内容:

一文搞懂激活函数在神经网络中的关键作用

逻辑回归：Sigmoid函数在分类问题中的应用

$\tanh(x)=\frac{e^x - e^{-x}}{e^x + e^{-x}}$

定义域： $(-\infty,+\infty)$
值域： $(- 1, 1)$
对称性： 关于点 $(0, 0)$ 中心对称
可导性： 处处可导

在这里插入图片描述

运用场景

神经网络隐藏层： 引入非线性，使得模型能够学习复杂的特征。
强化学习： 动作选择的概率计算。
数据标准化： 将特征值映射到 $(- 1, 1)$ 区间，便于后续处理。

求导：
$\frac{d}{dx} \tanh(x) = \frac{d}{dx} \left( \frac{e^x - e^{-x}}{e^x + e^{-x}} \right)$

$\frac{d}{dx} \left( \frac{e^x - e^{-x}}{e^x + e^{-x}} \right) = \frac{(e^x + e^{-x})(e^x + e^{-x}) - (e^x - e^{-x})(e^x - e^{-x})}{(e^x + e^{-x})^2}$

$\frac{(e^{2x} + 2 + e^{-2x}) - (e^{2x} - 2 + e^{-2x})}{(e^x + e^{-x})^2} = \frac{4}{(e^x + e^{-x})^2}$

$\because (e^x + e^{-x})^2 = \cosh^2(x)； \frac{4}{\cosh^2(x)} = 4 \cdot \text{sech}^2(x)$

$\therefore \frac{d}{dx} \tanh(x) = 1 - \tanh^2(x)$

函数特点

解决了 Sigmoid 函数的输出不以 0 为中心的问题。Sigmoid 函数的输出范围是 $(0, 1)$ ，而 Tanh 函数的输出范围是 $(- 1, 1)$ ，这使得 Tanh 函数的输出以 $0$ 为中心。这一特性有助于梯度的稳定，因为梯度在正负方向上是对称的，从而避免了梯度更新时的不对称性。

尽管 Tanh 函数解决了输出不以 0 为中心的问题，但它仍然存在梯度消失和幂运算的问题。

梯度消失
梯度消失问题的根本原因是激活函数的导数在输入值较大或较小时接近于 0。对于 Tanh 函数，其导数为：
$\frac{d}{dx} \tanh(x) = 1 - \tanh^2(x)$
当 x 的绝对值较大时， $\tanh(x)$ 接近于 1 或 -1，此时 $\tanh' (x)$ 接近于 0。这导致在反向传播过程中，梯度值变得非常小，几乎无法对权重进行有效更新，从而减慢了训练速度甚至导致训练停滞。