R语言机器学习算法实战系列(五)GBM算法+SHAP值 (Gradient Boosting Machines)
文章目录
-
- 介绍
-
- 教程
- 下载数据
- 加载R包
- 导入数据
- 数据预处理
- 数据描述
- 数据切割
- 调节参数
- 构建模型
- 预测测试数据
- 评估模型
-
- 模型准确性
- 混淆矩阵
- 模型评估指标
- ROC Curve
- PRC Curve
- 特征的重要性
- 模型解释
- 保存模型
- 总结
- 系统信息
介绍
Gradient Boosting Machines(GBM)是一种集成学习算法,它通过构建多个弱预测模型(通常是决策树),然后将这些模型的预测结果组合起来,以提高预测的准确性。GBM的核心思想是逐步添加模型,每个新模型都尝试纠正前一个模型的错误。
算法原理:
- 初始化模型: 首先,GBM从一个初始模型开始,这个模型可以是一个简单的模型,比如一个常数值(回归问题)或一个简单的分类器(分类问题)。
- 负梯度方向: 对于每个训练样本,计算当前模型的预测值与真实值之间的残差(或误差)。在回归问题中,这通常是真实值与预测值之间的差;在分类问题中,这可能是梯度(在某些实现中,如AdaBoost)或二阶导数(即Hessian,用于提升树模型)。
- 构建决策树: