当前位置: 首页 > article >正文

24、深度学习-自学之路-卷积神经网络

一、你怎么理解卷积神经网络呢,我的理解是当你看一个东西的时候,你的眼睛距离图片越近,你看到的东西就越清晰,但是如果你看到的图片只是整个物体的一小部分,那么你将不知道你看到的物品是什么,因为关注整体更容易知道物品是什么。如果你保持一定的距离,你就会发现你可以看到物品更加的全貌一些,这样将方便你观察物品的类别。如果你距离的再远一点,你就会看到物品的轮廓,那么你将依据物品的轮廓去判断物品的类别。

如果图片的噪声很多,我们可以距离物品远一点,这样我们看的东西的轮廓来判断物品更合适。

如果图片的噪声很小,那我们可以距离物品近一点,就可以看到物品的类型。

可能这么理解还不够准确,不够这样理解我更加方便理解。

二、下面我们来说一下,一个卷积神经网络包含哪些:

大家可以在哔哩哔哩上搜《【数之道 08】走进"卷积神经网络",了解图像识别背后的原理》

他讲的已经非常好了。

其实还有一个输入层,如果一定要这么理解的话,我们的图片就是输入层。

1、卷积层:卷积层指的是把一张图片,按照纵向和横向的提取方法,来提取图片的特征。

按照3*3

0 1 0  

0 1 0

0 1 0     

0 0 0

1 1 1 

0 0 0

在一个6*6(一般为了提取的信息更加准确,还是把(6*6的上下作用添加0,组成8*8)的图片上以此从做往右进行提取。提取图片的横向和纵向特征。

提取完的是一个6*6的图片矩阵。

2、最大池化层:

按照2*2的方式来提取6*6找到每一个小的2*2小矩阵的最大值作为最后3*3矩阵的输入值。

3、全连接层

也就是我们在神经元中的输入成和对应的隐藏层

输入成是纵向3*3展开后的1*9的输入层,还有加上横向输入层也是1*9,一共最后是1*18

隐藏层可以是一层,也可以是多层。

中间使用激活函数relu进行激活

4、输出层

输出我们识别的或者是数字,如果我们还是在MNIST上进行的练习,我们可以得到就是我们能识别的数字,其中再加上我们熟悉的输出层的激活函数softmax。可以更好的识别图片中的数字。

这么结合着来理解会更好。


http://www.kler.cn/a/549315.html

相关文章:

  • 图论(三):图距离——寻找并绘制最短路径图距离矩阵平均图距离离心率图直径/边缘点/半径/中心点
  • OnlyOffice编辑器下载失败排查与解决方案
  • 笔记: 利用二极管、三极管、MOS管搭建过压保护电路
  • Postman中的代理艺术:配置与使用指南
  • 蓝桥杯(B组)-每日一题(阶乘求和)
  • HTML之JavaScript常见事件
  • SQL-leetcode—1667. 修复表中的名字
  • Mac Golang 开发环境配置
  • 从零搭建微服务项目(第7章——微服务网关模块基础实现)
  • 【AI】Docker中快速部署Ollama并安装DeepSeek-R1模型: 一步步指南
  • Redis基础——1、Linux下安装Redis(超详细)
  • MyBatis映射文件常用元素详解与示例
  • Flutter 常见布局模型
  • 【LeetCode】LCR 120. 寻找文件副本
  • 使用 pgvector 实现 PostgreSQL 语义搜索和 RAG:完整指南
  • DeepSeek R1 与 OpenAI O1:机器学习模型的巅峰对决
  • 关于防火墙运维面试题2
  • Unity3D 可视化脚本框架设计详解
  • Linux搭建ESP32开发环境
  • 线性代数中的正交和标准正交向量