当前位置：首页 > article >正文

【机器学习】机器学习的基本分类-监督学习-梯度提升树（Gradient Boosting Decision Tree, GBDT）

article 2025/2/28 23:12:54

梯度提升树是一种基于**梯度提升（Gradient Boosting）**框架的机器学习算法，通过构建多个决策树并利用每棵树拟合前一棵树的残差来逐步优化模型。

1. 核心思想

Boosting：通过逐步调整模型，使后续的模型重点学习前一阶段未能正确拟合的数据。
梯度提升：将误差函数的负梯度作为残差，指导新一轮模型的训练。

与随机森林的区别

特性	随机森林	梯度提升树
基本思想	Bagging	Boosting
树的训练方式	并行训练	顺序训练
树的类型	完全树	通常是浅树（弱学习器）
应用场景	抗过拟合、快速训练	高精度、复杂任务

2. 算法流程

输入：
- 数据集 $D = \{ (x_i, y_i) \}_{i=1}^{n}$ 。
- 损失函数 $L(y, \hat{y})$ ，如平方误差、对数似然等。
- 弱学习器个数 T 和学习率 η。
初始化模型：
- $f_0$ 是一个常数，通常为目标变量的均值（回归）或类别概率的对数（分类）。
迭代训练每棵弱学习器（树）：
- 第 t 次迭代：
  1. 计算第 t 轮的负梯度（残差）：
    $r_i^{(t)} = -\left[ \frac{\partial L(y_i, f(x_i))}{\partial f(x_i)} \right]_{f=f_{t-1}}$
    残差反映当前模型未能拟合的部分。
  2. 构建决策树 $h_t(x)$ 拟合残差 $r_i^{(t)}$ 。
  3. 计算最佳步长（叶节点输出值）： $\gamma_t = \arg\min_\gamma \sum_{i=1}^n L\left(y_i, f_{t-1}(x_i) + \gamma h_t(x_i)\right)$
  4. 更新模型： $f_t(x) = f_{t-1}(x) + \eta \gamma_t h_t(x)$ 其中 η 是学习率，控制每棵树的贡献大小。
输出模型：最终模型为：
$f_T(x) = \sum_{t=1}^T \eta \gamma_t h_t(x)$

3. 损失函数

GBDT 可灵活选择损失函数，以下是常用的几种：

平方误差（MSE，回归问题）：
- 负梯度： $r_i = y_i - f(x_i)$
对数似然（Log-Loss，二分类问题）：
- 负梯度： $r_i = y_i - \sigma(f(x_i))$
指数损失（Adaboost）：
$L(y, \hat{y}) = e^{-y\hat{y}}$

4. GBDT 的优缺点

优点

灵活性：支持回归和分类任务，且损失函数可定制。
高精度：由于采用 Boosting 框架，能取得非常好的预测效果。
特征选择：内置特征重要性评估，帮助筛选关键特征。
处理缺失值：部分实现（如 XGBoost）可以自动处理缺失值。

缺点

训练时间长：由于弱学习器依次构建，训练过程较慢。
对参数敏感：需要调整学习率、树的数量、最大深度等参数。
不擅长高维稀疏数据：相比线性模型和神经网络，GBDT 在处理高维数据（如文本数据）时表现一般。

5. GBDT 的改进

XGBoost：
- 增加正则化项，控制模型复杂度。
- 支持并行化计算，加速训练。
- 提供更高效的特征分裂方法。
LightGBM：
- 提出叶子分裂（Leaf-Wise）策略。
- 适合大规模数据和高维特征场景。
CatBoost：
- 专门针对分类特征优化。
- 避免目标泄露（Target Leakage）。

6. GBDT 的代码实现

以下是 GBDT 的分类问题实现：

from sklearn.datasets import make_classification
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 生成数据
X, y = make_classification(n_samples=1000, n_features=10, n_informative=5, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 创建 GBDT 模型
gbdt = GradientBoostingClassifier(n_estimators=100, learning_rate=0.1, max_depth=3, random_state=42)
gbdt.fit(X_train, y_train)

# 预测
y_pred = gbdt.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print("分类准确率:", accuracy)

# 特征重要性
import matplotlib.pyplot as plt
import numpy as np

feature_importances = gbdt.feature_importances_
indices = np.argsort(feature_importances)[::-1]

plt.figure(figsize=(10, 6))
plt.title("Feature Importance")
plt.bar(range(X.shape[1]), feature_importances[indices], align="center")
plt.xticks(range(X.shape[1]), indices)
plt.show()

输出结果