当前位置：首页 > article >正文

【漫话机器学习系列】152.ReLU激活函数（ReLU Activation Function）

article 2025/3/22 17:49:40

ReLU 激活函数详解

1. 引言

在深度学习中，激活函数（Activation Function） 是神经网络中的关键组成部分，它赋予了神经网络非线性能力，使得模型能够学习复杂的数据模式和特征。其中，修正线性单元（Rectified Linear Unit, ReLU） 是目前最流行的激活函数之一，广泛应用于深度神经网络（DNNs）、卷积神经网络（CNNs）等架构中。

本篇文章将详细介绍 ReLU 激活函数的定义、数学公式、性质、优缺点及其改进版本。

2. ReLU 的定义

ReLU 的数学定义如下：

$f(x) = \begin{cases} 0, & x < 0 \\ x, & x \geq 0 \end{cases}$

从这个定义可以看出：

当输入 x 为负数 时，输出为 0；
当输入 x 为非负数 时，输出与输入相同，即 $f(x) = x$ 。

如图所示，ReLU 函数的图像呈现**“分段线性”**的形态，在 x = 0 处发生拐折，负数区域恒为 0，正数区域是一条直线 y = x。

3. ReLU 的特点

ReLU 之所以受到广泛应用，主要是因为它具有以下特点：

(1) 计算简单

ReLU 仅仅包含了一个条件判断和简单的线性函数，因此计算成本比 Sigmoid 或 Tanh 更低，适用于大规模神经网络。

(2) 解决梯度消失问题

在 Sigmoid 和 Tanh 激活函数中，输入值较小时，其梯度会趋近于零，导致梯度消失（Vanishing Gradient Problem）。而 ReLU 在正区间梯度恒为 1，不会造成梯度消失问题，使得深度网络更容易训练。

(3) 稀疏激活（Sparsity）

由于负值部分恒为 0，因此神经元在某些情况下不会被激活（即输出为 0），从而使得网络具有一定的稀疏性，提高了计算效率。

(4) 非线性

虽然 ReLU 由两部分线性函数构成，但由于它是分段线性的，因此它仍然是非线性函数，可以使神经网络学习复杂的模式。

4. ReLU 的问题

尽管 ReLU 具有诸多优点，但它也存在一些问题：

(1) 死亡神经元（Dying ReLU）

当输入小于 0 时，ReLU 的梯度恒为 0，导致神经元永远不会更新，从而出现**“死亡神经元”**现象。这在训练过程中，尤其是较大的学习率下可能导致大量神经元失效，影响网络性能。

解决方案

Leaky ReLU（泄漏ReLU）：在负数区域添加一个小的斜率，使负数部分不再恒为 0，例如：
$f(x) = \begin{cases} 0.01x, & x < 0 \\ x, & x \geq 0 \end{cases}$
Parametric ReLU（PReLU）：与 Leaky ReLU 类似，但负数区域的斜率为可学习的参数。
Exponential Linear Unit（ELU）：在负区间使用指数函数，使其更加平滑。

(2) 输出值无上限

ReLU 的输出范围是 [0, +∞)，如果输入值很大，则输出值也会很大，可能导致梯度爆炸问题。

解决方案

使用 Batch Normalization（BN） 来对输入进行标准化，防止激活值过大。
使用 Clipped ReLU 限制最大输出值，防止梯度爆炸。

5. ReLU 的改进版本

针对 ReLU 的缺点，研究人员提出了多种改进版本：

名称	公式	特点
Leaky ReLU	$f(x) = \max(0.01x, x)$	负数部分不会恒为 0，避免“死亡神经元”问题
Parametric ReLU (PReLU)	$f(x) = \max(ax, x)$ ，a 可学习	负数部分的斜率为可学习参数，更具适应性
Exponential Linear Unit (ELU)	$f(x) = x(x \geq 0)$ ， $f(x)=\alpha(e^x - 1)(x < 0)$	负数部分更平滑，可减少梯度消失问题
Scaled Exponential Linear Unit (SELU)	$\lambda f(x)$ ，其中 f(x) 为 ELU	具有自归一化（Self-Normalizing）特性