当前位置: 首页 > article >正文

神经网络(系统性学习二):单层神经网络(感知机)

此前篇章:

神经网络中常用的激活函数

神经网络(系统性学习一):入门篇


单层神经网络(又叫感知机)

单层网络是最简单的全连接神经网络,它仅有输入层和输出层,没有隐藏层。即,网络的所有输入直接影响到输出。

结构:输入层 → 输出层

特点

  • 只适用于线性可分问题。即,单层网络只能学习并解决线性可分的问题(例如,二维平面上的两类点可以通过一条直线分开)。

  • 单层感知机的输出由输入的加权和经过激活函数(如sigmoid)产生。

优点:结构简单,计算量较小。

缺点:无法解决非线性问题,如XOR问题(异或问题)。因为单层网络只能找到线性决策边界,无法处理更复杂的模式。


详细讲解

感知机最初设计用于二分类问题,用来判断输入样本属于正类还是负类。

1、模型结构:

感知机的输入:

  • 输入特征向量:\mathbf{x} = [x_1, x_2, \dots, x_n]^\top

  • 权重向量:\mathbf{w} = [w_1, w_2, \dots, w_n]^\top

  • 偏置:b

通常,我们还有一个0项权重,或者说常数项w_{0} ,即x_{0}=1对应的权重。这里我们忽略这一非重点的常数项。

加权和:感知机通过将输入特征与权重进行加权求和,再加上偏置项,得到一个总和值。

z = w_1 x_1 + w_2 x_2 + \cdots + w_n x_n + b

激活函数:通常是符号函数sign(z)

感知机模型的输出为:

2、基本步骤

感知机的学习过程是个迭代优化过程,通过不断调整权重和偏置,使模型能够正确分类训练数据。

1、初始化权重和偏置:

在训练开始前,感知机的权重 w1,w2,...,wn 和偏置 b 通常被初始化为小的随机值,或者初始化为零。学习率 η也是一个超参数,通常设置为一个小的正数,如 0.01 或 0.1。

2、对每一个样本计算加权和:

3、通过激活函数预测样本分类标签y_{\text{pred}}^{(i)}

4、误差计算与权重更新(反向传播):

对于每一个样本,如果预测分类结果正确,则不更新权重和偏置。否则利用预测误差更新权重和偏置:

这里的更新规则是通过误差(y^{(i)} - y_{\text{pred}}^{(i)})来调整权重和偏置。如果分类正确(即 y^{(i)} = y_{\text{pred}}^{(i)},则权重和偏置不发生变化。

5、迭代过程(epoch)

对于每个训练样本,逐个计算加权和、应用激活函数、更新权重和偏置。每一轮迭代,会对所有训练样本进行一次更新。通常需要多轮迭代才能训练出一个合适的模型。

停止条件为:

  • 达到最大迭代次数;

  • 在某一轮迭代中没有发生任何权重更新(即所以样本都分类正确)。


具体例子

假设我们有以下一个简单的训练数据集。

初始化时设定权重 w1=0.1,w2=0.2,偏置 b=0,学习率 η=0.01。

第一轮迭代:

对于样本1,计算加权和:z=0.1×2+0.2×3+0=0.8。 激活函数输出 y_{\text{pred}} = 1,与真实标签一致,因此不更新权重。

对于样本2,计算加权和:z=0.1×1+0.2×1+0=0.3。激活函数输出 y_{\text{pred}} = 1,但真实标签是 -1,所以发生分类错误。更新权重和偏置:

w_1 \leftarrow 0.1 + 0.01 \times (-1 - 1) \times 1 = 0.08

w_2 \leftarrow 0.2 + 0.01 \times (-1 - 1) \times 1 = 0.18

b \leftarrow 0 + 0.01 \times (-1 - 1) = -0.02

对于样本3,计算加权和:z=0.08×3+0.18×1−0.02=0.4。激活函数输出 y_{\text{pred}} = 1,与真实标签一致,因此不更新权重。

第二轮迭代:

...

一直迭代

直到所有样本分类正确或达到停止条件,得到了我们要的 w 和 b

#  若文章对大噶有帮助的话,点个赞支持一下叭!


http://www.kler.cn/a/408310.html

相关文章:

  • vue3【实战】响应式的登录界面
  • Android 设备使用 Wireshark 工具进行网络抓包
  • Android Binder技术概览
  • 摄影:相机控色
  • SQL深入理解递归查询与层级结构的处理:以拼接ID路径为例
  • MySQL 中的锁
  • 【CS61A 2024秋】Python入门课,全过程记录P2(Week3开始,更新中2024/11/24)
  • React(五)——useContecxt/Reducer/useCallback/useRef/React.memo/useMemo
  • 11.19机器学习_逻辑回归
  • harbor和docker配置https访问
  • Git | 通过Gihub+git组合来学习理解团队项目合作中分支的创建、合并、删除操作
  • 【C语言】指针1
  • 嵌入式开发中Java可以替代Qt吗?
  • LeetCode 1975. Maximum Matrix Sum
  • [Atcoder Beginner Contest 381 D]1122 Substring 题解
  • GWO-SVMD分解 | Matlab实现GWO-SVMD灰狼算法优化逐次变分模态分解
  • Linux应用编程(C语言编译过程)
  • vue2面试题10|[2024-11-24]
  • .NET新知识点笔记
  • 【STM32】GPIO(超详细)
  • 内存分配与回收策略
  • 设计模式——模板模式
  • (二)Sping Boot学习——Sping Boot注意事项
  • 【踩坑日记】【教程】如何在ubuntu服务器上配置公钥登录以及bug解决
  • 分布式数据库中间件可以用在哪些场景呢
  • 【Y20030006】基于php+mysql的课程学习网站的设计与实现(附源码 配置 文档)