当前位置: 首页 > article >正文

机器学习基础-线性回归和逻辑回归

目录

基本概念和定义

线性回归

逻辑回归

线性回归中的最小二乘法和梯度下降法

最小二乘法

梯度下降法

参数调整策略

梯度下降类型

梯度下降的调参的基本操作

过拟合和欠拟合的概念及处理方法

过拟合(Overfitting)

欠拟合(Underfitting)

激活函数SIGMOD表示及特点

表示

特点

使用场景

线性回归和逻辑回归的异同


基本概念和定义

线性回归

逻辑回归


线性回归中的最小二乘法和梯度下降法

最小二乘法

寻找最佳拟合给定数据点的直线。该方法通过最小化观测值与模型预测值之间的差异平方和来估计未知参数。

为了确定这些参数的最佳值,最小二乘法定义了一个损失函数(也称为成本函数或误差平方和),它是所有观测点到拟合直线的距离(残差)的平方和SSE


梯度下降法

  • 迭代地调整参数θ,从而使 J 最小

参数调整策略

  • 步长(学习率):控制每次迭代中参数 θθ 更新的幅度。
    • 步长太大:可能导致学习过程发散,无法收敛到最小值。
    • 步长太小:虽然可以收敛,但训练时间会很长。

梯度下降类型

  • 批量梯度下降每次调参,训练集的所有样本计算新参数
  • 随机梯度下降:每次调参,在训练集中随机选择一个样本来更新参数
  • 批量梯度下降:每次调参,都会对训练集中一小部分进行梯度下降计算更新参数

梯度下降的调参的基本操作

  • 当计算值>实际值时,下调相关参数
  • 当计算值<实际值时,上调相关参数

过拟合和欠拟合的概念及处理方法

过拟合(Overfitting)

  • 概念:机器学习模型在训练数据上表现良好,但在测试数据或新的数据上表现较差。
  • 原因:模型过于复杂,导致模型在训练数据中学习到了数据的噪声和细节。
  • 处理方法:① 简化模型 ②正则化 ③早停法 ④数据增强 ⑤增加数据量
    • 正则化
    • 工作原理:通过约束模型权重,即减小参数θ的值,来限制模型复杂度,使得每个特征都对输出的影响尽可能小
    • 方法:Lasso回归、岭回归

欠拟合(Underfitting)

  • 概念:模型既不能很好地拟合训练数据,也不能很好地预测新数据。
  • 原因:模型过于简单,未能捕捉到数据中的潜在模式。
  • 处理方法:① 增加模型复杂度 ②特征工程 ③训练更长时间

激活函数SIGMOD表示及特点

使用场景

  • 二分类问题:由于 Sigmoid 函数可以将任意实数值映射到 (0, 1) 区间,因此它常被用作二分类问题的最后一层激活函数。
  • 逻辑回归:在逻辑回归中,Sigmoid 函数用于估计事件发生的概率。

表示

特点

  1. 输出范围:Sigmoid 函数的输出范围是 (0, 1),这意味着它可以用来表示概率。当输入接近正无穷时,输出趋近于 1;当输入接近负无穷时,输出趋近于 0。

  2. 非线性:Sigmoid 函数是非线性的,这允许神经网络学习复杂的模式。

  3. 平滑梯度:Sigmoid 函数是处处可导的,其导数在所有点都是正值。这意味着它可以提供一个平滑的梯度,有利于使用梯度下降法进行优化。

  4. 不对称性:Sigmoid 函数不是以零为中心的,它的输出总是正数。这可能在某些情况下引起训练问题,特别是在深层网络中,因为激活值不居中可能会导致权值更新的方向偏向某一侧。

  5. 缺点: 激活函数计算量大,反向传播求误差的时候,求导涉及到除法,很容易出现梯度消失的情况,从而无法完成深层网络的训练。


线性回归和逻辑回归的异同

特征线性回归(Linear Regression)逻辑回归(Logistic Regression)
主要用途回归问题分类问题
因变量预测连续数值型因变量(如房价、销售额等)预测二分类或多元分类问题中的类别标签(如是否患病、邮件是否为垃圾邮件)。
输出类型连续的数值,输出可以是任意实数 (-∞, +∞)。概率值,输出被压缩在 (0, 1) 区间内,表示概率。
损失函数常用最小化均方误差(MSE)作为损失函数。使用对数损失(log loss)或交叉熵损失函数。
激活函数没有使用特定的激活函数,直接输出预测值。使用 Sigmoid 函数(对于二分类)将线性组合转换成概率。
解释性可以直接解释自变量与因变量之间的关系(斜率代表变化率)。可以通过几率比(Odds Ratio)来解释自变量对结果概率的影响。
过拟合风险较低,尤其是当特征数量较少时。如果不加以控制(例如使用正则化),可能有过拟合的风险。
数据要求要求自变量和因变量之间存在线性关系,并且残差应满足正态分布等假设。对输入数据没有严格的线性假设,但仍然需要考虑特征选择和工程。
参数估计方法最小二乘法(OLS)、梯度下降等。最大似然估计(MLE),也可以使用梯度下降优化。

http://www.kler.cn/a/470007.html

相关文章:

  • Midjourney 应用:框架总结
  • 获取IP地区
  • 最好用的图文识别OCR -- PaddleOCR(2) 提高推理效率(PPOCR模型转ONNX模型进行推理)
  • 运动相机拍摄的视频打不开怎么办
  • Unity中 Xlua使用整理(一)
  • Spring AMQP ----注解篇
  • OpenGl(四) 提升Shader性能--VBO、EBO、VAO之EBO
  • Reactor测试框架之StepVerifier
  • JavaScript语言的编程范式
  • Python爬虫入门指南:从零开始抓取数据
  • Mysql--基础篇--概述
  • 专业无人机飞手培训,考证、组装、调参、维修全面技术详解
  • 网络协议安全
  • NLP论文速读|基于主动检索的渐进多模态推理
  • 【C++】AVL树|插入|单旋|双旋
  • 反向代理模块开发,
  • type1-88
  • python打包open3d问题
  • 尚硅谷· vue3+ts 知识点学习整理 |14h的课程(持续更ing)
  • 如何分析 Nginx 日志
  • 并查集:合并集合
  • (leetcode算法题)137. 只出现一次的数字 II
  • cursor vip
  • AFFAM模型详解及分析
  • Mac软件介绍之录屏软件Filmage Screen
  • day01_ Java概述丶开发环境的搭建丶常用DOS命令