当前位置: 首页 > article >正文

4.系统学习-集成学习

集成学习

  • 前言
  • Bias and Variance
  • 过拟合(overfitting)与欠拟合(underfitting)
  • 集成学习为什么有效?
  • Blending 模型集成
  • Stakcing 模型集成
  • Bagging模型集成
  • Bagging 模型集成算法流程:
  • Boosting模型集成
  • 作业

前言

比赛中集成学习,但要用好模型集成可能并不是那么简单,本文将讨论讨论:

  1. 模型总体误差分解,过拟合,欠拟合
  2. 为什么集成学习能降低总体误差
  3. Blending
  4. Stacking
  5. Bagging
  6. Boosting

Bias and Variance

在这里插入图片描述
假设有训练数据集 D D D,包含样本点 ( x 1 , y 1 ) , … , ( x n , y n ) (x_1, y_1), \ldots, (x_n, y_n) (x1,y1),,(xn,yn)
存在一个带噪音的真实函数 y = f ( x ) + ϵ y = f(x) + \epsilon y=f(x)+ϵ,噪音 ϵ \epsilon ϵ 均值为 0 0 0,方差为 σ 2 \sigma^2 σ2,我们希望通过数据集 D D D 训练模型 f ^ ( x ; D ) \hat{f}(x; D) f^(x;D) 尽可能逼近真实函数 f f f,使得任意训练数据集以外的样本误差最小化,即最小化误差函数 MSE:

E D , ϵ [ ( y − f ^ ( x ; D ) ) 2 ] = ( Bias D [ f ^ ( x ; D ) ] ) 2 + Var D [ f ^ ( x ; D ) ] + σ 2 \mathbb{E}_{D,\epsilon}\left[(y - \hat{f}(x; D))^2\right] = \left(\text{Bias}_D\left[\hat{f}(x; D)\right]\right)^2 + \text{Var}_D\left[\hat{f}(x; D)\right] + \sigma^2 ED,ϵ[(yf^(x;D))2]=(BiasD[f^(x;D)])2+VarD[f^(x;D)]+σ2

where 偏差 (bias) 部分:

Bias D [ f ^ ( x ; D ) ] = E D [ f ^ ( x ; D ) ] − f ( x ) \text{Bias}_D\left[\hat{f}(x; D)\right] = \mathbb{E}_D\left[\hat{f}(x; D)\right] - f(x) BiasD[f^(x;D)]=ED[f^(x;D)]f(x)

and 方差 (variance) 部分:

Var D [ f ^ ( x ; D ) ] = E D [ ( E D [ f ^ ( x ; D ) ] − f ^ ( x ; D ) ) 2 ] . \text{Var}_D\left[\hat{f}(x; D)\right] = \mathbb{E}_D\left[\left(\mathbb{E}_D[\hat{f}(x; D)] - \hat{f}(x; D)\right)^2\right]. VarD[f^(x;D)]=ED[(ED[f^(x;D)]f^(x;D))2].
这里我们已经通过公式推导将目标函数分解成三项:

a) 偏差项 (bias) 是采用不同训练数据集 D D D 时,模型预测和真值的偏差,可以看成由不同的模型假设带来的误差。比如真实函数是一个非线性函数 f f f,而我们采用线性回归模型 f ^ \hat{f} f^ 进行建模,由于这一假设,估计我们的线性模型 f ^ \hat{f} f^ 将存在误差。通常越复杂的模型偏差更小,复杂模型的假设空间更大,对真实函数逼近能力更强,偏差更小。

b) 方差项 (variance) 为采用不同训练数据集 D D D 训练模型时,模型对同一个样本预测值的波动大小,通常越复杂的模型越敏感,这意味着采用不同数据训练的模型差异会很大,导致对同一个样本预测值的波动较大,即方差很大。

c) 为随机误差,无法预测。

过拟合(overfitting)与欠拟合(underfitting)

  1. Overfitting,当我们的模型太复杂(比如很深的决策树、非常多的特征工程、大型深度学习网络等),模型偏差较低,方差较大;
  2. Underfitting,当我们的模型太简单(线性回归、无特征工程、浅层感知机等),模型偏差较大,方差较小;过拟合和欠拟合都不是我们想要的模型状态,如下图所示,最好的状态时偏差和方差都处于比较小的均衡状态,这时候总体误差最小。
    在这里插入图片描述

集成学习为什么有效?

集成学习指建模时训练多个基模型,预测时候融合多个模型预测结果,降低总体误差的学习方法。集成学习方法有很多,总体上可以分为三类:Stacking,Bagging 及 Boosting.
在这里插入图片描述
降低模型方差

可以看出不管是哪种模型集成方法,都有一个共同特点:融合多个模型预测结果。由统计知识可知,多个独立同分布随机变量满足:

X 1 , X 2 , … , X n X_1, X_2, \ldots, X_n X1,X2,,Xn 是独立同分布的,满足 E ( X i ) = μ , D ( X i ) = σ 2 , i = 1 , 2 , 3 , … , n E(X_i) = \mu, D(X_i) = \sigma^2, i = 1, 2, 3, \ldots, n E(Xi)=μ,D(Xi)=σ2,i=1,2,3,,n

则随机变量 X ‾ = 1 n ∑ i = 1 n X i \overline{X} = \frac{1}{n}\sum_{i=1}^n X_i X=n1i=1nXi,满足 E ( X ‾ ) = μ , D ( X ‾ ) = σ 2 n E(\overline{X}) = \mu, D(\overline{X}) = \frac{\sigma^2}{n} E(X)=μ,D(X)=nσ2

下证:

E ( X ‾ ) = E ( 1 n ∑ i = 1 n X i ) = 1 n ∑ i = 1 n E ( X i ) = 1 n ⋅ n μ = μ E(\overline{X}) = E\left(\frac{1}{n} \sum_{i=1}^n X_i\right) = \frac{1}{n} \sum_{i=1}^n E(X_i) = \frac{1}{n} \cdot n\mu = \mu E(X)=E(n1i=1nXi)=n1i=1nE(Xi)=n1nμ=μ

D ( X ‾ ) = D ( 1 n ∑ i = 1 n X i ) = 1 n 2 ∑ i = 1 n D ( X i ) = 1 n 2 ⋅ n σ 2 = σ 2 n D(\overline{X}) = D\left(\frac{1}{n} \sum_{i=1}^n X_i\right) = \frac{1}{n^2} \sum_{i=1}^n D(X_i) = \frac{1}{n^2} \cdot n \sigma^2 = \frac{\sigma^2}{n} D(X)=D(n1i=1nXi)=n21i=1nD(Xi)=n21nσ2=nσ2

其中随机变量的简单算术平均可以看成模型融合结果,只要不同模型预测结果满足独立同分布,模型预测方差将从原本的 σ 2 \sigma^2 σ2 变为 σ 2 n \frac{\sigma^2}{n} nσ2,大幅度降低了总体误差中的方差部分。当然这是最理想情况了,一般来说模型间都存在一定的相关性,相关性越弱,融合后预测方差越低。

因此在集成学习中,构造模型间的差异化是重中之重。在 bagging 中,我们通过采用不同的训练数据构造差异化。

降低模型偏差
在这里插入图片描述从上图可以看出,融合多个弱模型(相对概念,指复杂度比较低的模型),可以降低模型偏差,获得更高的模型精度。

Blending 模型集成

将数据划分为训练集和验证集
在这里插入图片描述

在这里插入图片描述

  1. 在训练集上训练模型(m1, m2, m3, …)

  2. 在验证集上预测,得到模型(m1, m2, m3, …)的预测结果

  3. 使用模型验证集预测结果作为特征,训练分类(例如逻辑回归)或回归(例如线性回归)模型,也可以人工指定权重,对模型(m1, m2, m3, …)的预测结果进行加权平均。例如在分类问题中将(m1, m2, m3, …)的预测概率进行加权,权重和为1。

Stakcing 模型集成

在这里插入图片描述
Stacking 模型集成方法和 Blending 方法非常类似,通过一个 meta model 对不同类别的基模型预测结果进行集成。Stacking 采用的基模型通常是不同种类的,算法流程如下:

  1. 将数据集划分成3部分:subset1, subset2, subset3。

  2. 在 subset1 上训练不同种类的基模型(比如:逻辑回归、决策树等)。

  3. 在 subset2 上,基模型进行预测

  4. 在 subset2 上,使用第3步中的预测结果作为输入,训练一个 meta 模型,通常 meta 模型我们尽量采用复杂度较低的简单模型,比如线性回归或逻辑回归,避免过拟合。

  5. 在 subset3 上,基模型进行预测,预测结果输入到 meta 模型进行预测,得到最终预测结果,测试模型精度。

Stacking 简化变体 Average / Weighted

很多时候,为了简化 stacking 模型集成或降低过拟合,我们不需要训练 meta 模型,可以直接将基模型预测值进行平均或加权平均即可。这时候我们的工作流变成:

  1. 将数据集划分成两部分:subset1 和 subset2。
  2. 在 subset1 上训练不同种类的基模型(比如:逻辑回归、决策树等)。
  3. 在 subset2 使用基模型进行预测,并对所有基模型预测的结果计算平均值(或进行加权平均)得到最终预测结果,测试模型精度。

如果采用加权平均,一般建议精度更高的模型更高的权重。例如有模型 A/B/C,精度模型 A > B > C,可以给予权重 A: 0.5, B: 0.3, C: 0.2。如果你不想调整权重而求最优权重,这时候可以等价于引入一个线性模型,在搜索线性模型参数时,来防止过拟合。这个时候建议采用完整 stacking 模型集成方案。

需要注意的是,在进行分类问题建模时通常进行概率融合。例如在使用逻辑回归进行分类时,使用 predict_proba 方法可以得到预测概率结果,预测结果为 N x 2 维度,2 为类别数量,分别代表输入样本和正确类别的概率。概率值融合后,使用 np.argmax(pred_result, axis=1) 即可得到每个样本最高概率的类别。

>>> from sklearn.datasets import load_iris
>>> from sklearn.linear_model import LogisticRegression
>>> X, y = load_iris(return_X_y=True)
>>> clf = LogisticRegression(random_state=0).fit(X, y)
>>> clf.predict(X[:2, :])
array([0, 0])
>>> clf.predict_proba(X[:2, :])
array([[9.8...e-01, 1.8...e-02, 1.4...e-08],
       [9.7...e-01, 2.8...e-02, 2.2...e-08]])
>>> clf.score(X, y)
0.97

Bagging模型集成

在这里插入图片描述

Bagging 模型集成算法流程:

  1. 通过 放回抽样 得到多个训练集
  2. 在不同的训练集上训练基模型(一般采用相同类型的模型)
  3. 对模型预测结果进行融合

一般的,我们将使用决策树作为基模型的 Bagging 集成学习方法叫做 随机森林,同时由于决策树本身是一种拟合能力比较强的模型,为了最大化模型差异化,在训练每棵决策树时进行特征采样,使得不同子模型使用的数据集不仅样本不同,同时使用的特征也不完全一致。在 sklearn 库中已经有成熟的随机森林实现,可以直接调用。

from sklearn.ensemble import RandomForestClassifier

RandomForestClassifier(
    n_estimators=100,
    max_depth=None,
    max_features='auto',
    max_leaf_nodes=None,
)

参数解释:

参数解释
n_estimators设置基模型数量
max_depth树的最大深度
max_features寻找最佳分割时要考虑的特征数量
max_leaf_nodes允许的最大叶子节点数量

随机森林的特点:

  1. 并行的集成框架,适合并行训练,训练速度快。
  2. 特征随机采样使得在样本特征维度很高的时候,仍然能有效的训练模型。
  3. 数据集随机采样 & 特征随机采样的引入,使得随机森林的基模型能构造较大的差异化,降低融合模型方差,提升泛化能力,避免过拟合。
  4. 因为 Bagging 主要降低模型方差,因此一般选择偏差较小的大型决策树(深度较深,叶子节点数量高)作为基模型,来平衡偏差和方差。

Boosting模型集成

与Bagging相反,Boosting采用串行的集成框架,常见的算法流程如下图所示:

  1. 从数据集中均匀采样一个子集
  2. 在子集上训练模型并对整个数据集进行预测
  3. 计算每个样本误差
  4. 根据误差大小对数据集样本赋权(误差越大,权重越大),并使用新的权重对数据集进行采样,得到一个新的子集
  5. 重复2~4,直到达到预设的迭代次数在这里插入图片描述
    Boosting集成学习通过迭代训练,逐步降低模型偏差,因此我们一般采用比较简单的基模型(浅层决策树),
    避免过拟合发生。
    sklearn已经实现了Boosting集成学习方法,可以通过
    sklearn.ensemble.AdaBoostClassifier直接调用,使用方法和参数与随机森林类似。
    Boosting模型集成特点:
  6. 串行集成方法,比较难并行化,速度较慢
  7. 能有效降低偏差,适合采用简单的基模型

作业

  1. 回答在进行平均融合时,基模型具有怎样的特点能够最大化提升模型性能?
  2. 在链接: Kaggle泰坦尼克竞赛中使用逻辑回归、决策数、随机森林建模,对模型预测概率采用加权平均的方式进行模型融合,观察融合效果,是否较单模型有提升

http://www.kler.cn/a/457693.html

相关文章:

  • Unity3D 基于GraphView实现的节点编辑器框架详解
  • leetcode hot100_part08_二叉树(完)
  • 深度学习模型预测值集中在某一个值
  • Nginx - 整合lua 实现对POST请求的参数拦截校验(不使用Openresty)
  • WeNet:面向生产的流式和非流式端到端语音识别工具包
  • 【国产NI替代】基于STM32+FPGA的8振动+4温度(16bits)数据采集板卡解决方案,支持全国产
  • 容声606WILL养鲜冰箱发布,定义品质健康生活新标准
  • TCP 连接:三次握手与四次挥手
  • gazebo_world 基本围墙。
  • gitlab runner 实现 微信小程序自动化部署
  • Flutter 插件开发入门
  • frameworks 之 WMS添加窗口流程
  • 嵌入式开发 的循环实现
  • 牛客周赛 Round 66 E题 小苯的蓄水池(hard)
  • 【电路复习--选择题】
  • 【汇编】关于函数调用过程的若干问题
  • 选择排序cYuyan
  • 破解无人机能源瓶颈:优化调度与智能布局的实践
  • mongdb的简介和使用
  • 面向机器学习的Java库与平台
  • cellphoneDB进行CCI以及可视化
  • TCP网络编程(二)—— 服务器端的编写
  • Upload-labs 靶场(学习)
  • 【Linux】Socket编程-UDP构建自己的C++服务器
  • 3.微服务灰度发布落地实践(组件灰度增强)
  • AI 自动化编程的现状与局限