机器学习经典算法——逻辑回归
目录
算法介绍
算法概念
算法的优缺点
LogisticRegression()函数理解
环境准备
算法练习
算法介绍
算法概念
逻辑回归(Logistic Regression)是一种广泛应用于分类问题的机器学习算法。 它基于线性回归的思想,但通过引入一个逻辑函数(如 Sigmoid 函数)将线性回归的输出值映射到 0 到 1 之间,从而得到事件发生的概率估计。
算法的优缺点
逻辑回归的优点包括:
-
计算效率高,训练速度快。
-
模型简单易懂,可解释性强。
-
能够处理线性可分和近似线性可分的数据。
逻辑回归的缺点:
容易欠拟合,分类精度可能不高。
LogisticRegression()函数理解
def __init__(
self,
penalty="l2",
*,
dual=False,
tol=1e-4,
C=1.0,
fit_intercept=True,
intercept_scaling=1,
class_weight=None,
random_state=None,
solver="lbfgs",
max_iter=100,
multi_class="auto",
verbose=0,
warm_start=False,
n_jobs=None,
l1_ratio=None,
):
#参数理解
'''
Penalty:正则化方式,有l1和l2两种。用于指定惩罚项中使用的规范。
newton-cg、sag和lbfgs求解算法只支持L2规范。
L1G规范假设的是模型的参数满足拉普拉斯分布,
L2假设的模型参数满足高斯分布,
所谓的范式就是加上对参数的约束,使得模型更不会过拟合(overfit),理论上加了约束泛化能力更强。
Dual:按默认即可。对偶方法只用在求解线性多核(liblinear)的L2惩罚项上。
当样本数量>样本特征的时候,dual通常设置为False。
Tol:float,默认值:1e-4,容许停止标准,即我们说的要迭代停止所需达到的精度要求。
C:正则化强度。为浮点型数据。正则化系数λ的倒数,float类型,默认为1.0。必须是正浮点型数!
像SVM一样,越小的数值表示越强的正则化。
fit_intercept:指定是否应该将常量(即偏差或截距)添加到决策函数中。相当于是否加入截距项b。默认加入。
intercept_scaling:仅在正则化项为”liblinear”,且fit_intercept设置为True时有用。
float类型,默认为1。
class_weight:用于标示分类模型中各种类型的权重,可以是一个字典或者’balanced’字符串,默认为None,
也就是不考虑权重,在出现样本不平衡时,可以考虑调整class_weight系数去调整,防止算法对训练样本多的类别偏倚。用于标示分类模型中各种类型的权重,可以是一个字典或者’balanced’字符串,默认为不输入,也就是不考虑权重,即为None。如果选择输入的话,可以选择balanced让类库自己计算类型权重,或者自己输入各个类型的权重。举个例子,比如对于0,1的二元模型,我们可以定义class_weight={0:0.9,1:0.1},这样类型0的权重为90%,而类型1的权重为10%。如果class_weight选择balanced,那么类库会根据训练样本量来计算权重。某种类型样本量越多,则权重越低,样本量越少,则权重越高。当class_weight为balanced时,类权重计算方法如下:n_samples / (n_classes * np.bincount(y))。n_samples为样本数,n_classes为类别数量,np.bincount(y)会输出每个类的样本数,例如y=[1,0,0,1,1],则np.bincount(y)=[2,3]。
那么class_weight有什么作用呢?
在分类模型中,我们经常会遇到两类问题:
第一种是误分类的代价很高。比如对合法用户和非法用户进行分类,将非法用户分类为合法用户的代价很高,我们宁愿将合法用户分类为非法用户,这时可以人工再甄别,但是却不愿将非法用户分类为合法用户。这时,我们可以适当提高非法用户的权重。
第二种是样本是高度失衡的,比如我们有合法用户和非法用户的二元样本数据10000条,里面合法用户有9995条,非法用户只有5条,如果我们不考虑权重,则我们可以将所有的测试集都预测为合法用户,这样预测准确率理论上有99.95%,但是却没有任何意义。这时,我们可以选择balanced,让类库自动提高非法用户样本的权重。提高了某种分类的权重,相比不考虑权重,会有更多的样本分类划分到高权重的类别,从而可以解决上面两类问题。
random_state:伪随机数产生器在对数据进行洗牌时使用的种子。仅在正则化优化算法为sag,liblinear时有用。
Solver:{‘newton-cg’, ‘lbfgs’, ‘liblinear’, ‘sag’, ‘saga’},优化拟合参数算法选择,默认为liblinear。solver参数决定了我们对逻辑回归损失函数的优化方法,有四种算法可以选择,分别是:
liblinear:使用坐标轴下降法来迭代优化损失函数。使用了开源的liblinear库实现,内部使用了坐标轴下降法来迭代优化损失函数。
newton-cg:牛顿法,sag方法使用一阶导数,而牛顿法采用了二阶泰勒展开,这样缩减了迭代轮数,但是 需要计算Hsssian矩阵的逆,所以计算复杂度较高。【也是牛顿法家族的一种,利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数。】
Lbfgs:拟牛顿法,考虑到牛顿法的Hessian矩阵求逆太过复杂,尤其在高维问题中几乎不可行,想到了用较低的代价寻找Hessian矩阵的近似逆矩阵,便有了拟牛顿法。【拟牛顿法的一种,利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数。】
Sag:即随机平均梯度下降,类似于我们的stocGradAscent1函数,思想是常用的一阶优化方法,是求解无约束优化问题最经典,最简单的方法之一。【即随机平均梯度下降,是梯度下降法的变种,和普通梯度下降法的区别是每次迭代仅仅用一部分的样本来计算梯度,适合于样本数据多的时候。】
Saga:线性收敛的随机优化算法。【线性收敛的随机优化算法的的变种。】
总结:
liblinear适用于小数据集,而sag和saga适用于大数据集因为速度更快。
对于多分类问题,只有newton-cg,sag,saga和lbfgs能够处理多项损失,而liblinear受限于一对剩余(OvR)。啥意思,就是用liblinear的时候,如果是多分类问题,得先把一种类别作为一个类别,剩余的所有类别作为另外一个类别。依次类推,遍历所有类别,进行分类。
newton-cg,sag和lbfgs这三种优化算法时都需要损失函数的一阶或者二阶连续导数,因此不能用于没有连续导数的L1正则化,只能用于L2正则化。而liblinear和saga通吃L1正则化和L2正则化。
同时,sag每次仅仅使用了部分样本进行梯度迭代,所以当样本量少的时候不要选择它,而如果样本量非常大,比如大于10万,sag是第一选择。但是sag不能用于L1正则化,所以当你有大量的样本,又需要L1正则化的话就要自己做取舍了。要么通过对样本采样来降低样本量,要么回到L2正则化。
从上面的描述,大家可能觉得,既然newton-cg, lbfgs和sag这么多限制,如果不是大样本,我们选择liblinear不就行了嘛!错,因为liblinear也有自己的弱点!我们知道,逻辑回归有二元逻辑回归和多元逻辑回归。对于多元逻辑回归常见的有one-vs-rest(OvR)和many-vs-many(MvM)两种。而MvM一般比OvR分类相对准确一些。郁闷的是liblinear只支持OvR,不支持MvM,这样如果我们需要相对精确的多元逻辑回归时,就不能选择liblinear了。也意味着如果我们需要相对精确的多元逻辑回归不能使用L1正则化了。
max_iter:算法收敛最大迭代次数,int类型,默认为100。仅在正则化优化算法为newton-cg, sag和lbfgs才有用,算法收敛的最大迭代次数。
multi_class:分类方式选择参数,str类型,可选参数为ovr和multinomial,默认为ovr。ovr即前面提到的one-vs-rest(OvR),而multinomial即前面提到的many-vs-many(MvM)。如果是二元逻辑回归,ovr和multinomial并没有任何区别,区别主要在多元逻辑回归上。
OvR和MvM有什么不同?
OvR的思想很简单,无论你是多少元逻辑回归,我们都可以看做二元逻辑回归。具体做法是,对于第K类的分类决策,我们把所有第K类的样本作为正例,除了第K类样本以外的所有样本都作为负例,然后在上面做二元逻辑回归,得到第K类的分类模型。其他类的分类模型获得以此类推。
而MvM则相对复杂,这里举MvM的特例one-vs-one(OvO)作讲解。如果模型有T类,我们每次在所有的T类样本里面选择两类样本出来,不妨记为T1类和T2类,把所有的输出为T1和T2的样本放在一起,把T1作为正例,T2作为负例,进行二元逻辑回归,得到模型参数。我们一共需要T(T-1)/2次分类。
可以看出OvR相对简单,但分类效果相对略差(这里指大多数样本分布情况,某些样本分布下OvR可能更好)。而MvM分类相对精确,但是分类速度没有OvR快。如果选择了ovr,则4种损失函数的优化方法liblinear,newton-cg,lbfgs和sag都可以选择。但是如果选择了multinomial,则只能选择newton-cg, lbfgs和sag了。
verbose:日志冗长度,int类型。默认为0。就是不输出训练过程,1的时候偶尔输出结果,大于1,对于每个子模型都输出。
warm_start:热启动参数,bool类型。默认为False。如果为True,则下一次训练是以追加树的形式进行(重新使用上一次的调用作为初始化)。
n_jobs:并行数。int类型,默认为1。1的时候,用CPU的一个内核运行程序,2的时候,用CPU的2个内核运行程序。为-1的时候,用所有CPU的内核运行程序。
'''
在实际应用中,逻辑回归常用于以下场景:
-
二分类问题,如预测是否患病、是否购买产品等。
-
作为基准模型与其他复杂模型进行比较。
逻辑回归的参数估计通常使用最大似然估计或梯度下降等优化算法来求解。在评估模型性能时,可以使用准确率、召回率、F1 值等指标。 然而,逻辑回归也有一些局限性,例如对于非线性关系的拟合能力有限,在处理复杂数据时可能表现不佳。但通过特征工程、与其他算法结合等方法,可以在一定程度上克服这些不足。
环境准备
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn import metrics
from sklearn.preprocessing import StandardScaler
:导入数据标准化处理的类StandardScaler
,用于对数据进行标准化操作,使得不同特征具有相似的尺度。from sklearn.linear_model import LogisticRegression
:导入逻辑回归模型LogisticRegression
,用于构建逻辑回归分类器。from sklearn.model_selection import train_test_split
:导入数据分割的函数train_test_split
,用于将数据集分割为训练集和测试集。from sklearn import metrics
:导入用于模型评估指标计算的模块,例如准确率、召回率、F1 值等的计算函数。
算法练习
下面为银行贷款分析数据的部分截图,第一列为时间,可以删除,最后一列为是否允许贷款的判定结果,视为类别,中间为特征列。
问题:
-
将数据集划分为特征集和目标变量,然后进一步划分为训练集和测试集。
-
创建逻辑回归模型并进行训练。
-
在测试集上进行预测,并计算准确率,打印分类结果报告。
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn import metrics
import pandas as pd
# 读取信用卡数据集
data =pd.read_csv('creditcard.csv')
data.head()
# 创建数据标准化对象
scaler=StandardScaler()
# 获取数据中的'Amount'列,以二维数组形式
a=data[['Amount']]
# 获取数据中的'Amount'列,以一维数组形式
b=data['Amount']
# 对'Amount'列进行标准化处理
data['Amount']=scaler.fit_transform(data[['Amount']])
# 按列删除'Time'列
data=data.drop(['Time'],axis=1)
# 定义特征集,删除'Class'列
X_whole=data.drop('Class',axis=1)
# 定义目标变量,即'Class'列
Y_whole=data.Class
# 将数据集划分为训练集和测试集,测试集占比0.3,设置随机数种子为1000
x_train_w,x_test_w,y_train_w,y_test_w =\
train_test_split(X_whole,Y_whole,test_size =0.3,random_state = 1000)
# 创建逻辑回归模型,C=1
lr = LogisticRegression(C=1)
# 使用训练集训练模型
lr.fit(x_train_w,y_train_w)
# 在测试集上进行预测
train_predicted =lr.predict(x_test_w)
# 计算模型在测试集上的准确率
result = lr.score(x_test_w,y_test_w)
# 获取分类结果报告
print(metrics.classification_report(y_test_w, train_predicted))