当前位置：首页 > article >正文

Python AdaBoost自适应提升算法

article 2025/2/28 20:08:35

- Python AdaBoost自适应提升算法
- - 一、引言
  - 二、AdaBoost算法原理
  - 三、面向对象设计思想实现AdaBoost
  - 四、代码实现
  - - 1. WeakClassifier类
    - 2. AdaBoost类
    - 3. DatasetHelper类
  - 五、案例：AdaBoost在二分类问题中的应用
  - - 1. 数据加载与训练模型
    - 2. 模型评估
  - 六、代码详细解析
  - 七、优缺点分析
  - 八、改进方向
  - 九、应用场景
  - 十、总结

Python AdaBoost自适应提升算法

一、引言

自适应提升算法（AdaBoost）是一种元算法，它通过将多个弱分类器组合成一个强分类器来提高分类的准确率。在机器学习领域，AdaBoost因其简单、有效且能处理非平衡数据而广受欢迎。本文将详细介绍AdaBoost的理论知识，并通过Python代码实现该算法，代码结构采用面向对象的设计思想，以展示如何优雅地实现和应用AdaBoost模型。

二、AdaBoost算法原理

基本思想
AdaBoost通过对多个弱分类器的错误样本进行重点关注，逐步调整权重，来提升整体模型的预测能力。核心步骤如下：
- 初始阶段，所有训练样本的权重相同。
- 每轮训练中，根据上轮弱分类器的错误率更新样本权重，错误样本的权重会增加。
- 将弱分类器的加权投票结果结合为最终强分类器。
损失函数与权重更新公式
对于每一轮训练：

分类器 $h_t(x)$ 在当前权重分布下的错误率：
$\epsilon_t = \frac{\sum_{i=1}^N w_i \cdot I(h_t(x_i) \neq y_i)}{\sum_{i=1}^N w_i}$
计算该弱分类器的权重：
$\alpha_t = \frac{1}{2} \ln\left(\frac{1 - \epsilon_t}{\epsilon_t}\right)$
更新样本的权重：
$w_i^{t+1} = w_i^t \cdot \exp(-\alpha_t \cdot y_i \cdot h_t(x_i))$
并对权重进行归一化。

三、面向对象设计思想实现AdaBoost

接下来，我们采用面向对象编程（OOP）思想，用Python实现AdaBoost算法。我们的实现将包括以下类：

WeakClassifier：弱分类器类。
AdaBoost：AdaBoost算法主类。
DatasetHelper：辅助加载和处理数据。

四、代码实现

1. WeakClassifier类

我们这里使用决策树桩（单层决策树）作为弱分类器。

from sklearn.tree import DecisionTreeClassifier

class WeakClassifier:
    def __init__(self, max_depth=1):
        """初始化弱分类器，使用单层决策树（树桩）"""
        self.model = DecisionTreeClassifier(max_depth=max_depth)
    
    def fit(self, X, y, sample_weight):
        """根据样本权重训练分类器"""
        self.model.fit(X, y, sample_weight=sample_weight)
    
    def predict(self, X):
        """预测样本类别"""
        return self.model.predict(X)

2. AdaBoost类

import numpy as np

class AdaBoost:
    def __init__(self, n_estimators=50):
        """初始化AdaBoost算法，指定弱分类器的数量"""
        self.n_estimators = n_estimators
        self.alphas = []  # 存储每个弱分类器的权重
        self.classifiers = []  # 存储所有弱分类器

    def fit(self, X, y):
        """训练AdaBoost模型"""
        n_samples = X.shape[0]
        # 初始化所有样本的权重为均等
        weights = np.ones(n_samples) / n_samples

        for _ in range(self.n_estimators):
            clf = WeakClassifier()
            clf.fit(X, y, sample_weight=weights)
            predictions = clf.predict(X)

            # 计算分类错误率
            misclassified = (predictions != y)
            error = np.dot(weights, misclassified) / np.sum(weights)

            # 计算弱分类器的权重
            alpha = 0.5 * np.log((1 - error) / (error + 1e-10))
            self.alphas.append(alpha)
            self.classifiers.append(clf)

            # 更新样本权重
            weights *= np.exp(-alpha * y * predictions)
            weights /= np.sum(weights)  # 归一化

    def predict(self, X):
        """预测新样本的类别"""
        final_pred = np.zeros(X.shape[0])
        for alpha, clf in zip(self.alphas, self.classifiers):
            final_pred += alpha * clf.predict(X)
        return np.sign(final_pred)

3. DatasetHelper类

from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split

class DatasetHelper:
    @staticmethod
    def load_data():
        """生成并返回二分类数据集"""
        X, y = make_classification(n_samples=500, n_features=10, 
                                   n_informative=5, n_redundant=0, 
                                   random_state=42)
        # 将标签转换为-1和1（AdaBoost要求）
        y = np.where(y == 0, -1, 1)
        return train_test_split(X, y, test_size=0.3, random_state=42)

五、案例：AdaBoost在二分类问题中的应用

1. 数据加载与训练模型

# 加载数据集
X_train, X_test, y_train, y_test = DatasetHelper.load_data()

# 初始化并训练AdaBoost模型
ada = AdaBoost(n_estimators=10)
ada.fit(X_train, y_train)

2. 模型评估

from sklearn.metrics import accuracy_score

# 在测试集上进行预测
y_pred = ada.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f"测试集上的准确率: {accuracy * 100:.2f}%")

六、代码详细解析

弱分类器封装
WeakClassifier使用单层决策树来作为弱分类器，通过样本权重进行训练，保证了每一轮都能关注错误样本。
AdaBoost类的实现
- 在fit方法中，我们逐轮训练弱分类器，并根据错误率计算每个分类器的权重（alpha）。
- 使用predict方法时，多个弱分类器的预测结果按权重投票，最终输出类别。
数据集处理
DatasetHelper通过make_classification生成二分类数据，并将标签转换为AdaBoost需要的格式（-1和1）。