机器学习基础-线性回归和逻辑回归
目录
基本概念和定义
线性回归
逻辑回归
线性回归中的最小二乘法和梯度下降法
最小二乘法
梯度下降法
参数调整策略
梯度下降类型
梯度下降的调参的基本操作
过拟合和欠拟合的概念及处理方法
过拟合(Overfitting)
欠拟合(Underfitting)
激活函数SIGMOD表示及特点
表示
特点
使用场景
线性回归和逻辑回归的异同
基本概念和定义
线性回归
逻辑回归
线性回归中的最小二乘法和梯度下降法
最小二乘法
寻找最佳拟合给定数据点的直线。该方法通过最小化观测值与模型预测值之间的差异平方和来估计未知参数。
为了确定这些参数的最佳值,最小二乘法定义了一个损失函数(也称为成本函数或误差平方和),它是所有观测点到拟合直线的距离(残差)的平方和SSE
梯度下降法
- 迭代地调整参数θ,从而使 J 最小
参数调整策略
- 步长(学习率):控制每次迭代中参数 θθ 更新的幅度。
- 步长太大:可能导致学习过程发散,无法收敛到最小值。
- 步长太小:虽然可以收敛,但训练时间会很长。
梯度下降类型
- 批量梯度下降:每次调参,用训练集的所有样本来计算新参数
- 随机梯度下降:每次调参,在训练集中随机选择一个样本来更新参数
- 批量梯度下降:每次调参,都会对训练集中一小部分进行梯度下降计算更新参数
梯度下降的调参的基本操作
- 当计算值>实际值时,下调相关参数
- 当计算值<实际值时,上调相关参数
过拟合和欠拟合的概念及处理方法
过拟合(Overfitting)
- 概念:机器学习模型在训练数据上表现良好,但在测试数据或新的数据上表现较差。
- 原因:模型过于复杂,导致模型在训练数据中学习到了数据的噪声和细节。
- 处理方法:① 简化模型 ②正则化 ③早停法 ④数据增强 ⑤增加数据量
- 正则化
- 工作原理:通过约束模型权重,即减小参数θ的值,来限制模型复杂度,使得每个特征都对输出的影响尽可能小
- 方法:Lasso回归、岭回归
欠拟合(Underfitting)
- 概念:模型既不能很好地拟合训练数据,也不能很好地预测新数据。
- 原因:模型过于简单,未能捕捉到数据中的潜在模式。
- 处理方法:① 增加模型复杂度 ②特征工程 ③训练更长时间
激活函数SIGMOD表示及特点
使用场景
- 二分类问题:由于 Sigmoid 函数可以将任意实数值映射到 (0, 1) 区间,因此它常被用作二分类问题的最后一层激活函数。
- 逻辑回归:在逻辑回归中,Sigmoid 函数用于估计事件发生的概率。
表示
特点
-
输出范围:Sigmoid 函数的输出范围是 (0, 1),这意味着它可以用来表示概率。当输入接近正无穷时,输出趋近于 1;当输入接近负无穷时,输出趋近于 0。
-
非线性:Sigmoid 函数是非线性的,这允许神经网络学习复杂的模式。
-
平滑梯度:Sigmoid 函数是处处可导的,其导数在所有点都是正值。这意味着它可以提供一个平滑的梯度,有利于使用梯度下降法进行优化。
-
不对称性:Sigmoid 函数不是以零为中心的,它的输出总是正数。这可能在某些情况下引起训练问题,特别是在深层网络中,因为激活值不居中可能会导致权值更新的方向偏向某一侧。
-
缺点: 激活函数计算量大,反向传播求误差的时候,求导涉及到除法,很容易出现梯度消失的情况,从而无法完成深层网络的训练。
线性回归和逻辑回归的异同
特征 | 线性回归(Linear Regression) | 逻辑回归(Logistic Regression) |
---|---|---|
主要用途 | 回归问题 | 分类问题 |
因变量 | 预测连续数值型因变量(如房价、销售额等) | 预测二分类或多元分类问题中的类别标签(如是否患病、邮件是否为垃圾邮件)。 |
输出类型 | 连续的数值,输出可以是任意实数 (-∞, +∞)。 | 概率值,输出被压缩在 (0, 1) 区间内,表示概率。 |
损失函数 | 常用最小化均方误差(MSE)作为损失函数。 | 使用对数损失(log loss)或交叉熵损失函数。 |
激活函数 | 没有使用特定的激活函数,直接输出预测值。 | 使用 Sigmoid 函数(对于二分类)将线性组合转换成概率。 |
解释性 | 可以直接解释自变量与因变量之间的关系(斜率代表变化率)。 | 可以通过几率比(Odds Ratio)来解释自变量对结果概率的影响。 |
过拟合风险 | 较低,尤其是当特征数量较少时。 | 如果不加以控制(例如使用正则化),可能有过拟合的风险。 |
数据要求 | 要求自变量和因变量之间存在线性关系,并且残差应满足正态分布等假设。 | 对输入数据没有严格的线性假设,但仍然需要考虑特征选择和工程。 |
参数估计方法 | 最小二乘法(OLS)、梯度下降等。 | 最大似然估计(MLE),也可以使用梯度下降优化。 |