当前位置: 首页 > article >正文

李宏毅 机器学习与深度学习【2022版】 03

文章目录

  • 一、卷积神经网络CNN
  • 二、使用验证集,模型还过拟合的原因
  • 三、深度学习的优点
  • 四、Spatial Transformer Layer

一、卷积神经网络CNN

CNN在影像识别中,表现比较好。
在这里插入图片描述


在这里插入图片描述


在这里插入图片描述


在这里插入图片描述


在这里插入图片描述


在这里插入图片描述


在这里插入图片描述


在这里插入图片描述


在这里插入图片描述
每个感受野 receptive field 都有一个神经元去探测鸟嘴,是没有没要的,所以可以共享它们的参数。


在这里插入图片描述


在这里插入图片描述
如果两个神经元在同一个感受野中,不能共享参数。因为它们的输入相同,参数也相同,将会导致输出也想通。


在这里插入图片描述
可以理解为在一个感受野中,每一个神经元提取一个特征。


在这里插入图片描述
共享的参数称之为filter。如图中,两个红色神经元共享的参数称之为filter 1。


在这里插入图片描述


在这里插入图片描述


在这里插入图片描述


在这里插入图片描述


在这里插入图片描述
输入数据与卷积核做内积,得到的加过叫 Feature Map


在这里插入图片描述
每一个filter提取一种特征。


在这里插入图片描述
上图中,的第二层卷积形状为 3 × 3 × 64 3 \times 3 \times 64 3×3×64,是因为输入值有64个通道。

在这里插入图片描述
第二层卷积层的filter大小为 3 × 3 3 \times 3 3×3,它侦测第一层卷积层的范围就是 3 × 3 3 \times 3 3×3,而它实际侦测原图像的范围就是 5 × 5 5 \times 5 5×5,只要叠的层数够深,侦测的范围就会够大。


在这里插入图片描述


在这里插入图片描述


在这里插入图片描述


在这里插入图片描述


在这里插入图片描述


在这里插入图片描述
Pooling不改变通道数,只是减小长宽。它主要是用来减少数据量的。并不是所有卷积层之后,都要接池化层,比如下围棋,所以需要根据情况,进行使用。


在这里插入图片描述
CNN没有对放大和旋转图片的不变性,所以我们需要data augmentation

二、使用验证集,模型还过拟合的原因

在这里插入图片描述


在这里插入图片描述


在这里插入图片描述
所以通常希望待选模型数量要少,训练集要大,就不容易过拟合。


三、深度学习的优点

深度学习可以两者兼顾
在这里插入图片描述


为什么我们想要网络更深,而不是更胖?

在这里插入图片描述
虽然一个隐层的网络可以表现任何函数,而参数量相同的情况下,瘦高的网络比胖短的网络表现更好。


在这里插入图片描述
类比剪纸,先折叠再剪,比直接剪,会少剪很多刀。


在这里插入图片描述


在这里插入图片描述


在这里插入图片描述
达到相同的效果,深度学习需要更少的参数,进而需要更少的数据就可以避免过拟合。
如果目标函数,即可以是loss特别低的函数,是复杂有规律的,深的神经网络比胖的表现更好,例如在语音、影像上面的应用。


四、Spatial Transformer Layer

在这里插入图片描述
Spatial Transformer Layer作用就是将输入的image旋转变换为cnn认识的数据。当然它也可以transform cnn的feature map。


在这里插入图片描述


例如,如下图,连接箭头的起点的weight设置为1,其他都为0,这样就能完成旋转和平移的变换。
在这里插入图片描述


以下是该NN找出控制该连接的方法:

在这里插入图片描述


在这里插入图片描述


在这里插入图片描述


在这里插入图片描述


在这里插入图片描述
这里存在的问题是,在参数为非整数时,得到的 layer l-1 的索引值也是小数。如果简单地取离它最近的索引值,会造成参数的梯度总是为零。因为参数发生略微变化时,输出值: layer l-1 的索引值并不会变化,进而loss不会发生变化,所以梯度总是零,就没法训练优化。


解决方法:可以采用双线性插值法。
在这里插入图片描述


在这里插入图片描述
Localisation net: 就是输出变换矩阵的六个权重参数的神经网络。
Grid generator: 根据Localisation net计算的变换矩阵,实现像素点坐标的对应关系,即由目标图片的索引,计算得到原图片的索引。
Sampler: 对上一步算出的位置(即layer l-1 的索引值),进行双线性插值,得到最终输出。


应用举例如下:
在这里插入图片描述


http://www.kler.cn/a/282061.html

相关文章:

  • 使用YOLOv9进行图像与视频检测
  • Ubuntu 的 ROS 操作系统 turtlebot3 导航仿真
  • 【数据库】mysql数据库迁移前应如何备份数据?
  • 二、神经网络基础与搭建
  • AI 提示词(Prompt)入门 十:最佳实践|详细询问,提供细节!
  • 传奇996_23——杀怪掉落,自动捡取,捡取动画
  • 软考攻略/超详细/系统集成项目管理工程师/基础知识分享05
  • llama-cpp-python编译失败,解决方案安装wheel文件
  • 小米14的射频芯片高通SDR753全景图
  • 【练习】哈希表的使用
  • macOS 设置 vm.max_map_count [RAGFlow]
  • 刘文超行测笔记
  • Dopamine(多巴胺)越狱工具一键越狱教程:支持 iOS 15-iOS 16.6.1 设备
  • 5G NR HARQ操作机制
  • MySQL索引(三)
  • 图像搜索引擎DIY【CLIP+FAISS】
  • 力扣231题详解:2的幂的多种解法与模拟面试问答
  • DrawDB数据库设计工具本地部署结合内网穿透实现团队异地协作办公
  • Ubuntu22.04安装深度学习的GPU环境详细教程(小白图文,显卡驱动、CUDA、cuDNN、PyTorch一步到位)
  • Scrapy 项目部署Scrapyd
  • WHAT - 通过 react-use 源码学习 React(State 篇)
  • html+css+js网页设计 婚庆类型模版 12个页面
  • 关于复杂业务逻辑使用SQL还是java代码实现的思考
  • Golang安装与环境配置
  • 严重腰椎滑脱、无法走路,江山邦尔骨科医院机器人辅助手术为患者完美复位
  • XML 数据格式介绍及其应用