当前位置: 首页 > article >正文

L2 正则化(权重衰减)

params['weight_decay'] = 5e-4 是一个用于控制 L2 正则化(也叫做权重衰减)的参数。具体来说,weight_decay 影响优化器在更新模型参数时是否对权重进行惩罚,以防止模型过拟合。

1. L2 正则化(权重衰减)概述

L2 正则化通过在损失函数中加入一个与模型权重大小相关的惩罚项,来鼓励模型学习到较小的权重。这种方式有助于减少过拟合,避免模型在训练数据上表现过好但在新数据上表现不佳。

L2 正则化的惩罚项是权重向量的 平方范数,它的数学形式为:

L 2   penalty = λ ∑ i w i 2 L2 \, \text{penalty} = \lambda \sum_{i} w_i^2 L2penalty=λiwi2

其中:

  • w i w_i wi 是模型中第 i i i 个权重。
  • λ \lambda λ 是正则化系数(在这里是 params['weight_decay'],即 5e-4),它控制正则化的强度。

在优化过程中,L2 正则化会在原始损失函数中加入一个额外的惩罚项,使得总损失函数变为:

L total = L original + λ ∑ i w i 2 L_{\text{total}} = L_{\text{original}} + \lambda \sum_{i} w_i^2 Ltotal=Loriginal+λiwi2

  • L original L_{\text{original}} Loriginal 是原始的损失函数(例如交叉熵或均方误差)。
  • λ ∑ i w i 2 \lambda \sum_{i} w_i^2 λiwi2 是正则化项,它促使优化器在更新权重时考虑到权重的大小。

2. 作用与效果

  • 控制模型复杂度: weight_decay 控制模型中参数的大小。较大的 weight_decay 会使得模型的权重更小,从而避免过拟合(尤其是在数据量小的情况下)。相反,较小的 weight_decay 则会允许模型有较大的权重,从而可能导致过拟合。
  • 防止过拟合: 在训练过程中,模型会试图最小化原始损失函数和正则化项的和。较小的权重有助于提高模型的泛化能力,防止它在训练数据上过拟合。
  • 影响训练过程: 权重衰减使得优化器不仅仅关注最小化训练数据上的损失,还要确保学习到的权重尽可能小。这样可以有效避免某些权重过大而主导模型的训练,导致对某些特征过度依赖。

3. 如何影响模型训练

  • 如果 params['weight_decay'] 设置为 0,即没有正则化,模型的训练将仅依赖于原始损失函数。模型可能会有较大权重,这会导致训练过程中发生过拟合,尤其是在数据量较小或模型较复杂时。
  • 如果 params['weight_decay'] 设置为较大的值,例如 5e-4,正则化项将对模型权重施加更强的限制,从而迫使模型权重变小,降低模型过拟合的风险。

4. 在优化器中的作用

在优化器(如 Adam)中,weight_decay 作为一个参数直接影响梯度更新规则。当优化器计算每个参数的梯度时,L2 正则化项会直接加到梯度上,造成模型参数的更新不仅依赖于损失函数,还受到权重的影响。具体来说,Adam 优化器中的更新规则会包含以下项:

θ = θ − η ( ∂ L original ∂ θ + λ θ ) \theta = \theta - \eta \left( \frac{\partial L_{\text{original}}}{\partial \theta} + \lambda \theta \right) θ=θη(θLoriginal+λθ)

其中:

  • θ \theta θ 是模型参数(权重)。
  • η \eta η 是学习率。
  • ∂ L original ∂ θ \frac{\partial L_{\text{original}}}{\partial \theta} θLoriginal 是损失函数的梯度。
  • λ θ \lambda \theta λθ 是正则化项。

http://www.kler.cn/a/503885.html

相关文章:

  • 缓存-Redis-数据结构-redis哪些数据结构是跳表实现的?
  • 【信息系统项目管理师-选择真题】2019下半年综合知识答案和详解
  • java开发,IDEA转战VSCODE配置(mac)
  • 深入探索C#中Newtonsoft.Json库的高级进阶之路
  • 为AI聊天工具添加一个知识系统 之56 前端工具:知识图谱、语义网络和认知地图 之1
  • 你还在用idea吗
  • 优化 MySQL 的慢查询
  • WPF系列十二:图形控件CombinedGeometry
  • 42_Lua table表
  • 【拒绝算法PUA】3065. 超过阈值的最少操作数 I
  • Spring Boot 2 学习全攻略
  • w~大模型~合集27
  • 托宾效应和托宾q理论。简单解释
  • uniapp 发布后原生img正常,image无法显示,img与uniapp image使用区别
  • 【Block总结】Conv2Former的Block,结合卷积网络和Transformer的优点|即插即用
  • 视频超分(VSR)论文阅读记录/idea积累(一)
  • 【学术会议指南】方向包括遥感、测绘、图像处理、信息化教育、计算机技术、通信、大数据、人工智能、机械设计、仿真...可线上参与
  • Oracle重启后业务连接大量library cache lock
  • 【web靶场】之upload-labs专项训练(基于BUUCTF平台)
  • 工程师 - Eclipse安装和UML插件
  • 代码随想录刷题day07|(数组篇)58.区间和
  • LeetCode 热题 100_从前序与中序遍历序列构造二叉树(47_105_中等_C++)(二叉树;递归)
  • AI-ANNE:探索型神经网络——将深度学习模型转移到微控制器和嵌入式系统
  • 【网络云SRE运维开发】2025第2周-每日【2025/01/11】小测-【第11章NAT理论和实操考试】解析和参考
  • 中国地面气候资料日值数据集(V3.0)格式和下载说明
  • 【深度学习】核心概念-数据驱动(Data-Driven)