当前位置：首页 > article >正文

【深度学习】L1损失、L2损失、L1正则化、L2正则化

article 2025/2/28 18:58:03

文章目录

1. L1 损失（L1 Loss）
2. L2 损失（L2 Loss）
3. L1 正则化（L1 Regularization）
4. L2 正则化（L2 Regularization）
5. 总结
- 5.1 为什么 L1 正则化会产生稀疏解 L2 正则化会让权重变小

L1损失、L2损失、L1正则化、L2正则化是机器学习中常用的损失函数和正则化技术，它们在优化过程中起着至关重要的作用。它们的作用分别在于如何计算模型误差和如何控制模型的复杂度。

1. L1 损失（L1 Loss）

L1损失又称为绝对误差损失，它是预测值和真实值之间的绝对差值的和。它的计算公式为：

$\sum_{i=1} ^n |y_i-\hat y_i|$

$y_i$ 是真实值
$\hat y_i$ 是预测值
$N$ 是样本数

特点：

对于较大的误差，L1损失的惩罚较为平缓（线性增长），因此它对于异常值（outliers）的影响较小
L1损失函数产生的优化过程可能会导致稀疏解（一些参数变为0），这种特性在特征选择和稀疏模型中非常有用

优缺点：

优点：L1损失对异常值不敏感，适用于一些具有较大噪声数据的场景
缺点：L1损失的梯度在零点处不可导，这可能会导致某些优化算法（如梯度下降）在训练时出现问题

2. L2 损失（L2 Loss）

L2损失也叫均方误差损失（Mean Squared Error Loss, MSE）。它是预测值和真实值之间的平方差的和。公式为：
$\sum_{i=1} ^n (y_i-\hat y_i)^2$
L2损失函数通常用于回归问题，它鼓励模型产生小的误差

特点：

L2损失对误差的惩罚是平方的，意味着较大的误差会受到更大的惩罚，因此模型会倾向于减少较大误差。
L2损失函数是平滑的，在优化过程中更加稳定，且可以保证优化的梯度是可导的
L2损失更容易产生较为平滑的预测，不会像L1那样产生稀疏解

优缺点：

优点：对于大多数情况，L2损失提供了更平滑和稳定的优化，特别是在无异常值数据上表现较好
缺点：L2损失对异常值非常敏感，异常值会极大地影响模型性能

3. L1 正则化（L1 Regularization）

L1正则化通过向损失函数中添加一项L1范数（即参数绝对值的和）来控制模型的复杂度。L1正则化的公式为：

$L1\ Regularization = \lambda \sum_{i=1}^p|w_i|$

$w_i$ 是模型参数
$p$ 是参数的总数
$\lambda$ 是正则化的超参数，用于控制正则化的权重

特点：

L1正则化的效果是稀疏化，它可以使一些参数变为零，从而使得模型更加简洁，适合进行特征选择
当使用L1正则化时，优化过程中某些特征可能会被完全剔除，特别是当特征不重要时

优缺点：

优点：L1正则化能够自动进行特征选择，产生稀疏解，减少过拟合的风险。
缺点：如果特征之间有较强的相关性，L1正则化可能会不稳定，导致模型对特征的选择过于敏感

4. L2 正则化（L2 Regularization）

L2正则化通过向损失函数中添加一项L2范数（即参数的平方和）来约束模型的复杂度。L2正则化的公式为：

$L2\ Regularization = \lambda \sum_{i=1}^p w_i^2$

$w_i$ 是模型参数
$p$ 是参数的总数
$\lambda$ 是正则化的超参数，用于控制正则化的权重

特点：

L2正则化不会将参数置为零，而是减小参数的大小。它鼓励参数尽可能小，从而避免过拟合
L2正则化的优化过程是平滑的，因为它有一个可导的梯度

优缺点：

优点：L2正则化会减少模型对训练数据的过度拟合，同时不会像L1正则化那样丢弃特征，因此适用于特征之间存在强相关性的情况。
缺点：L2正则化不会像L1正则化那样产生稀疏解，因此无法进行特征选择

5. 总结

5.1 为什么 L1 正则化会产生稀疏解 L2 正则化会让权重变小

稀疏性：很多参数值为0

L1 的梯度：

$\lambda \sum_{i=1}^p|w_i| \\ \frac{\partial L}{\partial w_i} = \frac{\partial L(W)}{\partial w_i} + \lambda \cdot \text{sign}(w_i) \\ w_i = w_i - lr*\frac{\partial L}{\partial w_j} - lr* \lambda \text{sign}(w_i)$

其中：

$\frac{\partial L(W)}{\partial w_j}$ 是损失函数 $L (W)$ 对于 $w_j$ 的偏导数，
$\lambda$ 是正则化系数，
$\text{sign}(w_j)$ 是符号函数，定义为：

$\text{sign}(w_i) = \begin{cases} 1 & \text{if } w_i > 0 \\ 0 & \text{if } w_i = 0 \\ -1 & \text{if } w_i < 0 \end{cases}$

L2的梯度：

$\lambda \sum_{i=1}^pw_i^2 \\ \frac{\partial L}{\partial w_j} = \frac{\partial L(W)}{\partial w_j} + 2\lambda w_i \\ w_i = w_i - lr*\frac{\partial L}{\partial w_j} - lr*2 \lambda w_i$

因此有当 $w_i<1$ 的时候，L2 的惩罚项会越来越小，但是 L1 的惩罚项还是很大，因此 L1 会让参数变为 0，但是L2 很难。

L2 的惩罚项对于较小的权重会越来越小，而 L1 的惩罚项仍然保持相对较大，所以 L1 会更容易将权重变为 0，而 L2 很难做到这一点
L2惩罚项的变化：当 $w_i$ 很小（例如小于 1）时，L2 的惩罚项确实变得很小，但它不会像 L1 那样直接将权重逼近零，而是让权重变得越来越小，但是不至于完全为零。L2 的惩罚项对权重的影响是平滑的。
L1惩罚项的影响：L1 的惩罚项不会随着 $w_i$ 的变小而显著减小，它对小权重的影响依然存在，特别是在训练过程中，L1 会倾向于将一些权重压缩为零，甚至当权重已经很小的时候，也会对其施加强迫。