当前位置: 首页 > article >正文

深度学习好文记录,反复学习

recent update time:2023.12.2

深度学习入门 - 知乎、这本书也很好,作者写的专栏不错。

机器学习,深度学习一些好文_一只菜得不行的鸟的博客-CSDN博客

卷积神经网络学习路线(五)| 卷积神经网络参数设置,提高泛化能力?_"eval_type\":\"pr"-CSDN博客

一文读懂官方给出torch.nn.RNN API的参数及手写RNN API复现_nn.rnn参数-CSDN博客

关于BN折叠的问题

使用Batch Normalization折叠来加速模型推理-CSDN博客

BN层和前一层(Conv,Linear)

通常,在batch normalization层之前的层中是没有bias的,因为这是无用的,也是对参数的浪费,因为任何常数都会被batch normalization抵消掉。

在深度神经网络中,有时在 Batch Normalization 层之前的线性层(例如全连接层或卷积层)会被设计为没有偏置(bias)。这样的设计是有一些原因的,尤其是在使用 Batch Normalization 时:

Batch Normalization的效果: Batch Normalization 在其操作中包含了均值的减去和方差的除以等操作,这些操作本身具有平移和缩放的效果。如果在 Batch Normalization 层之前加上了偏置,它的作用在某种程度上会被 Batch Normalization 的操作所抵消,从而可能减弱 Batch Normalization 的效果。

BN

标准化与归一化_标准化和归一化_Weber77的博客-CSDN博客

ML领域更常使用标准化,如果数据不为稳定,存在极端的最大最小值,不要用归一化。z值归一化=标准化

BN可以省去dropout,L1, L2等正则化处理方法.

这人写的都不错:

Transformer 相关理解(上)_向量内积 相似性-CSDN博客


http://www.kler.cn/a/155030.html

相关文章:

  • nacos配置中心入门
  • 3. Sharding-Jdbc核⼼流 程+多种分⽚策略
  • ubuntu20.04 colmap 安装2024.11最新
  • 从swagger直接转 vue的api
  • Shell 脚本中的大小写陷阱:为什么 ${PWD} 而不是 ${pwd}?
  • StructuredStreaming (一)
  • Ext4文件系统解析(三)
  • redis性能测试
  • 计算机网络:应用层(上篇)
  • 【广州华锐视点】广东3D展厅开发服务找广州华锐视点,打造未来展览新体验!
  • Java笔记
  • C#编程题分享(5)
  • 自定义类型:结构体(自引用、内存对齐、位段(位域))
  • 【java+vue+微信小程序项目】从零开始搭建——健身房管理平台(2)后端跨域、登录模块、springboot分层架构、IDEA修改快捷键、vue代码风格
  • Python 简介和用途
  • springcloud==ribbon
  • C/C++ 谓词 lambda表达式
  • 自定义Vue的DockPanel-Layout
  • 深度学习记录--logistic回归损失函数向量化实现
  • LLM;超越记忆《第 2 部分 》
  • Echarts地图registerMap使用的GeoJson数据获取
  • Spring boot命令执行 (CVE-2022-22947)漏洞复现和相关利用工具
  • 高斯日记(cpp+java)
  • 线程安全的问题以及解决方案
  • 【重点】【双指针】15. 三数之和
  • Vue diff 算法探秘:如何实现快速渲染