当前位置：首页 > article >正文

RF分类-随机森林（Random Forest）

article 2024/12/26 18:16:24

RF分类详细介绍

源码

什么是RF分类？

RF分类（随机森林分类）是一种集成学习方法，基于**随机森林（Random Forest）**算法，用于解决分类和回归问题。随机森林通过构建多个决策树并结合它们的预测结果来提高模型的准确性和稳健性。相比单一的决策树，随机森林具有更强的泛化能力，能够有效减少过拟合现象。

RF分类的组成部分

决策树：
- 结构：每棵决策树由多个节点组成，包括根节点、内部节点和叶节点。每个内部节点根据某个特征进行划分，叶节点则代表最终的分类结果。
- 工作原理：通过递归地选择最优特征进行数据划分，直到满足停止条件（如最大深度或最小叶子节点数）。
随机森林：
- 集成方法：通过构建多个决策树并对它们的预测结果进行投票或平均，来得到最终的分类或回归结果。
- 随机性引入：在构建每棵决策树时，随机选择特征子集和样本子集，以增加模型的多样性，提升整体性能。

RF分类的工作原理

随机森林分类结合了多个决策树的优势，通过以下步骤实现分类任务：

初始化阶段：
- 样本采样：从原始数据集中通过有放回抽样（Bootstrap）生成多个样本子集，每个子集用于训练一棵决策树。
- 特征采样：在每个节点划分时，随机选择部分特征进行最优划分，以增加模型的多样性。
构建决策树：
- 训练：使用采样得到的样本子集和特征子集训练每棵决策树，直到满足停止条件。
- 多样性：通过随机采样和特征选择，每棵决策树在结构和预测上具有一定的差异性。
预测与集成：
- 分类预测：对于新的输入样本，所有决策树分别进行预测，最终通过投票机制决定样本的类别。
- 回归预测：对于回归任务，通过平均所有决策树的预测结果来得到最终输出。

RF分类的优势

高准确性：通过集成多个决策树，随机森林通常比单一决策树具有更高的分类准确率。
抗过拟合：由于引入了随机性和集成方法，随机森林能够有效减少过拟合现象，提升模型的泛化能力。
处理高维数据：能够处理大量特征并评估特征的重要性，适用于高维数据集。
稳健性强：对缺失数据和噪声数据具有较强的鲁棒性。
并行化处理：每棵决策树的训练过程相互独立，易于并行化，提高训练效率。

RF分类的应用

随机森林分类广泛应用于各类需要高精度分类的领域，包括但不限于：

医疗诊断：
- 疾病预测：如癌症诊断、心脏病预测等。
- 病人风险评估：评估病人的手术风险或恢复可能性。
金融预测：
- 信用评分：评估个人或企业的信用风险。
- 股票市场预测：预测股票价格的涨跌趋势。
生物信息学：
- 基因分类：根据基因表达数据进行疾病分类。
- 蛋白质结构预测：预测蛋白质的功能和结构。
工业控制：
- 质量检测：自动化检测产品质量，减少人工误差。
- 故障诊断：预测和诊断设备故障，提升生产效率。
环境科学：
- 气候预测：预测气候变化趋势。
- 污染物检测：监测和预测环境污染水平。

如何使用RF分类

使用RF分类模型主要包括以下步骤：

准备数据集：
- 数据收集与整理：确保数据的完整性和准确性，处理缺失值和异常值。
- 数据划分：将数据集划分为训练集和测试集，常用比例为70%训练集和30%测试集。
- 数据预处理：对数据进行归一化或标准化处理，以提高模型的训练效果和稳定性。
设置模型参数：
- 决策树数目：设定随机森林中决策树的数量，通常在50-500之间，根据问题复杂度和计算资源调整。
- 最小叶子节点数：设定每个叶节点的最小样本数，防止过拟合。
- 特征采样比例：设定每次节点划分时随机选择的特征数量，通常设置为特征总数的平方根。
训练模型：
- 使用训练集数据训练随机森林模型，构建多个决策树并进行集成。
模型测试与评估：
- 使用测试集数据进行分类预测，计算分类准确率、混淆矩阵等性能指标。
- 评估特征重要性，了解哪些特征对分类结果影响较大。
结果分析与可视化：
- 误差曲线：绘制随机森林的误差随决策树数量变化的曲线，观察模型的收敛情况。
- 特征重要性图：绘制特征重要性柱状图，分析各特征对分类的贡献。
- 混淆矩阵：生成混淆矩阵，详细分析分类性能，如精确率、召回率和F1分数。

使用RF分类的步骤示例

以下以一个具体的步骤示例，说明如何在MATLAB中实现RF分类：

数据准备：
- 确保数据集数据集.xlsx的最后一列为类别标签，且标签为整数编码。
- 使用MATLAB读取数据，并进行随机打乱、划分训练集和测试集。
数据预处理：
- 对输入数据进行归一化处理，确保数据在相同的尺度范围内。
- 保持类别标签的原始形式，适应分类任务。
模型构建与参数设置：
- 设置随机森林的参数，如决策树数目（trees）、最小叶子节点数（leaf）。
- 使用MATLAB的TreeBagger函数创建随机森林模型，并训练输出层权重。
模型训练与测试：
- 使用训练集数据训练随机森林模型。
- 对训练集和测试集进行预测，计算分类准确率。
结果可视化：
- 绘制误差曲线，观察随机森林的性能变化。
- 绘制特征重要性柱状图，分析各特征的贡献。
- 生成训练集和测试集的混淆矩阵，详细评估分类性能。

通过上述步骤，用户可以利用随机森林分类模型高效地解决各种分类问题，提升模型的准确性和稳健性。

代码简介

该MATLAB代码实现了基于**随机森林（Random Forest）**的分类算法，简称“RF分类”。其主要流程如下：

数据预处理：
- 导入数据集，并随机打乱数据顺序。
- 将数据集划分为训练集和测试集。
- 对数据进行归一化处理，以提高训练效果。
模型构建与参数设置：
- 设置随机森林的参数，如决策树数目、最小叶子节点数等。
- 使用MATLAB的TreeBagger函数创建随机森林模型，并训练输出层权重。
模型训练与测试：
- 使用训练集数据训练随机森林模型。
- 对训练集和测试集进行预测，并计算分类准确率。
结果分析与可视化：
- 绘制误差曲线，观察随机森林的性能变化。
- 绘制特征重要性柱状图，分析各特征的贡献。
- 生成训练集和测试集的混淆矩阵，详细评估分类性能。

以下是添加了详细中文注释的RF分类MATLAB代码。

MATLAB代码（添加详细中文注释）

%% 初始化
clear                % 清除工作区变量
close all            % 关闭所有图形窗口
clc                  % 清空命令行窗口
warning off          % 关闭警告信息

%% 导入数据
res = xlsread('数据集.xlsx');  % 从Excel文件中读取数据，假设最后一列为类别标签

%% 数据分析
num_size = 0.7;                              % 设定训练集占数据集的比例（70%训练集，30%测试集）
outdim = 1;                                  % 最后一列为输出
num_samples = size(res, 1);                  % 计算样本个数（数据集中的行数）
res = res(randperm(num_samples), :);         % 随机打乱数据集顺序，以避免数据排序带来的偏差（如果不需要打乱可注释该行）
num_train_s = round(num_size * num_samples); % 计算训练集样本个数（四舍五入）
f_ = size(res, 2) - outdim;                  % 输入特征维度（总列数减去输出维度）

%% 划分训练集和测试集
P_train = res(1: num_train_s, 1: f_)';       % 训练集输入，转置使每列为一个样本
T_train = res(1: num_train_s, f_ + 1: end)'; % 训练集输出，转置使每列为一个样本
M = size(P_train, 2);                        % 训练集样本数

P_test = res(num_train_s + 1: end, 1: f_)';   % 测试集输入，转置使每列为一个样本
T_test = res(num_train_s + 1: end, f_ + 1: end)'; % 测试集输出，转置使每列为一个样本
N = size(P_test, 2);                          % 测试集样本数

%% 数据归一化
[p_train, ps_input] = mapminmax(P_train, 0, 1);          % 对训练集输入进行归一化，范围[0,1]
p_test = mapminmax('apply', P_test, ps_input );         % 使用训练集的归一化参数对测试集输入进行归一化
t_train = T_train;                                      % 保持训练集输出不变
t_test  = T_test ;                                      % 保持测试集输出不变

%% 转置以适应模型
p_train = p_train'; p_test = p_test';                   % 转置输入数据，使每列为一个样本
t_train = t_train'; t_test = t_test';                   % 转置输出数据，使每列为一个样本

%% 训练模型
trees = 50;                                       % 决策树数目（可调节）
leaf  = 1;                                        % 最小叶子节点数（防止过拟合）
OOBPrediction = 'on';                             % 打开袋外误差预测
OOBPredictorImportance = 'on';                    % 计算特征重要性
Method = 'classification';                        % 设定方法为分类
% 使用TreeBagger函数创建随机森林模型，并设置相关参数
net = TreeBagger(trees, p_train, t_train, ...
    'OOBPredictorImportance', OOBPredictorImportance, ...
    'Method', Method, ...
    'OOBPrediction', OOBPrediction, ...
    'minleaf', leaf);
importance = net.OOBPermutedPredictorDeltaError;  % 获取特征重要性

%% 仿真测试
t_sim1 = predict(net, p_train);          % 使用训练集进行预测
t_sim2 = predict(net, p_test );          % 使用测试集进行预测

%% 格式转换
T_sim1 = str2double(t_sim1);             % 将训练集预测结果转换为数值型
T_sim2 = str2double(t_sim2);             % 将测试集预测结果转换为数值型

%% 性能评价
error1 = sum((T_sim1' == T_train)) / M * 100 ;  % 计算训练集的分类准确率
error2 = sum((T_sim2' == T_test )) / N * 100 ;  % 计算测试集的分类准确率

%% 绘制误差曲线
figure
plot(1: trees, oobError(net), 'b-', 'LineWidth', 1) % 绘制袋外误差随决策树数目的变化曲线
legend('误差曲线')                                   % 添加图例
xlabel('决策树数目')                                  % X轴标签
ylabel('误差')                                       % Y轴标签
xlim([1, trees])                                     % 设置X轴范围
grid                                                % 显示网格

%% 绘制特征重要性
figure
bar(importance)                                     % 绘制特征重要性柱状图
legend('重要性')                                     % 添加图例
xlabel('特征')                                       % X轴标签
ylabel('重要性')                                     % Y轴标签

%% 数据排序
[T_train, index_1] = sort(T_train);     % 对训练集真实标签进行排序，获取排序索引
[T_test , index_2] = sort(T_test );     % 对测试集真实标签进行排序，获取排序索引

T_sim1 = T_sim1(index_1);                % 按排序索引调整训练集预测结果
T_sim2 = T_sim2(index_2);                % 按排序索引调整测试集预测结果

%% 绘图
% 绘制训练集预测结果对比图
figure
plot(1: M, T_train, 'r-*', 1: M, T_sim1, 'b-o', 'LineWidth', 1) % 绘制真实值与预测值对比
legend('真实值', '预测值')                                        % 添加图例
xlabel('预测样本')                                                % X轴标签
ylabel('预测结果')                                                % Y轴标签
string = {'训练集预测结果对比'; ['准确率=' num2str(error1) '%']};  % 创建标题字符串
title(string)                                                    % 添加标题
grid                                                             % 显示网格

% 绘制测试集预测结果对比图
figure
plot(1: N, T_test, 'r-*', 1: N, T_sim2, 'b-o', 'LineWidth', 1) % 绘制真实值与预测值对比
legend('真实值', '预测值')                                        % 添加图例
xlabel('预测样本')                                                % X轴标签
ylabel('预测结果')                                                % Y轴标签
string = {'测试集预测结果对比'; ['准确率=' num2str(error2) '%']};   % 创建标题字符串
title(string)                                                    % 添加标题
grid                                                             % 显示网格

%% 混淆矩阵
figure
cm = confusionchart(T_train, T_sim1);  % 创建训练集的混淆矩阵图
cm.Title = '训练集混淆矩阵';               % 设置混淆矩阵标题
cm.ColumnSummary = 'column-normalized';      % 设置列摘要为归一化
cm.RowSummary = 'row-normalized';            % 设置行摘要为归一化

figure
cm = confusionchart(T_test, T_sim2);    % 创建测试集的混淆矩阵图
cm.Title = '测试集混淆矩阵';               % 设置混淆矩阵标题
cm.ColumnSummary = 'column-normalized';      % 设置列摘要为归一化
cm.RowSummary = 'row-normalized';            % 设置行摘要为归一化

代码说明

初始化：
- 清理环境：通过clear清除工作区变量，close all关闭所有图形窗口，clc清空命令行窗口，warning off关闭警告信息，确保代码运行环境的干净和无干扰。
导入数据：
- 读取数据：使用xlsread函数从Excel文件数据集.xlsx中读取数据。假设数据集的最后一列为类别标签，其他列为特征。
数据分析：
- 训练集比例：设定训练集占数据集的比例为70%。
- 输出维度：outdim = 1，表示数据集的最后一列为输出（类别标签）。
- 样本数：通过size(res, 1)计算数据集中的样本总数。
- 数据打乱：使用randperm函数随机打乱数据集的顺序，以避免数据排序带来的偏差。如果不希望打乱数据集，可以注释掉该行代码。
- 训练集样本数：通过round(num_size * num_samples)计算训练集的样本数量。
- 特征维度：通过size(res, 2) - outdim计算输入特征的维度。
划分训练集和测试集：
- 训练集输入：提取前num_train_s个样本的输入特征，并进行转置，使每列为一个样本。
- 训练集输出：提取前num_train_s个样本的输出（类别标签），并进行转置。
- 测试集输入：提取剩余样本的输入特征，并进行转置。
- 测试集输出：提取剩余样本的输出（类别标签），并进行转置。
- 样本数量：通过size函数获取训练集和测试集的样本数量，分别赋值给M和N。
数据归一化：
- 训练集归一化：使用mapminmax函数将训练集输入数据缩放到[0,1]的范围内，并保存归一化参数ps_input。
- 测试集归一化：使用mapminmax('apply', P_test, ps_input)，应用训练集的归一化参数对测试集输入数据进行相同的归一化处理，确保训练集和测试集的数据尺度一致。
- 输出数据保持不变：将训练集和测试集的输出数据保持不变，适应分类任务。
转置以适应模型：
- 转置输入数据：将训练集和测试集的输入数据进行转置，使每列为一个样本，符合MATLAB模型输入要求。
- 转置输出数据：将训练集和测试集的输出数据进行转置，使每列为一个样本。
训练模型：
- 设置随机森林参数：
  - trees = 50：设定随机森林中决策树的数量为50（可根据需求调整）。
  - leaf = 1：设定每个叶节点的最小样本数为1，以防止过拟合。
  - OOBPrediction = 'on'：开启袋外误差预测，用于评估模型的泛化能力。
  - OOBPredictorImportance = 'on'：开启特征重要性计算，评估各特征对分类结果的贡献。
  - Method = 'classification'：设定方法为分类任务。
- 创建随机森林模型：使用TreeBagger函数创建随机森林模型，并传入训练集的输入和输出数据，以及设定的参数。
- 获取特征重要性：通过net.OOBPermutedPredictorDeltaError获取特征的重要性指标。
仿真测试：
- 训练集预测：使用训练集数据对随机森林模型进行预测，得到预测结果t_sim1。
- 测试集预测：使用测试集数据对随机森林模型进行预测，得到预测结果t_sim2。
格式转换：
- 转换预测结果：使用str2double函数将预测结果从字符串格式转换为数值型，得到数值型的预测标签T_sim1和T_sim2。
性能评价：
- 计算训练集准确率：通过比较训练集的预测结果与真实标签，计算分类准确率error1。
- 计算测试集准确率：通过比较测试集的预测结果与真实标签，计算分类准确率error2。
绘制误差曲线：
- 绘制袋外误差曲线：使用plot函数绘制袋外误差随决策树数目的变化曲线，观察模型的误差趋势。
- 图形设置：添加图例、坐标轴标签和网格，提升图形的可读性。
绘制特征重要性：
- 绘制柱状图：使用bar函数绘制特征重要性柱状图，直观展示各特征对分类结果的贡献。
- 图形设置：添加图例、坐标轴标签，提升图形的可读性。
数据排序：
- 排序训练集标签：使用sort函数对训练集的真实标签进行排序，并获取排序索引index_1。
- 排序测试集标签：使用sort函数对测试集的真实标签进行排序，并获取排序索引index_2。
- 调整预测结果顺序：根据排序索引调整训练集和测试集的预测结果顺序，确保绘图时的对齐。
绘图：
- 训练集预测结果对比图：
  - 绘制对比曲线：使用plot函数绘制训练集的真实值与预测值对比图，红色星号表示真实值，蓝色圆圈表示预测值。
  - 图形设置：添加图例、坐标轴标签、标题和网格，提升图形的可读性。
- 测试集预测结果对比图：
  - 绘制对比曲线：使用plot函数绘制测试集的真实值与预测值对比图，红色星号表示真实值，蓝色圆圈表示预测值。
  - 图形设置：添加图例、坐标轴标签、标题和网格，提升图形的可读性。
混淆矩阵：
- 训练集混淆矩阵：
  - 创建混淆矩阵图：使用confusionchart函数生成训练集的混淆矩阵图。
  - 图形设置：设置混淆矩阵的标题和摘要选项，便于分析分类性能。
- 测试集混淆矩阵：
  - 创建混淆矩阵图：使用confusionchart函数生成测试集的混淆矩阵图。
  - 图形设置：设置混淆矩阵的标题和摘要选项，便于分析分类性能。

代码使用注意事项

数据集格式：
- 类别标签：确保数据集.xlsx的最后一列为类别标签，且类别标签为整数编码（如1, 2, 3等）。
- 特征类型：数据集的其他列应为数值型特征，适合进行归一化处理。如果特征包含类别变量，需先进行编码转换。
参数调整：
- 决策树数目（trees）：设定随机森林中决策树的数量。较大的树数目通常能提升模型性能，但会增加计算时间和资源消耗。根据数据集大小和计算资源调整此参数。
- 最小叶子节点数（leaf）：设定每个叶节点的最小样本数。较大的最小叶子节点数可以防止过拟合，但可能降低模型的拟合能力。
- 特征重要性：开启OOBPredictorImportance可以评估各特征的重要性，帮助理解模型的决策依据。
环境要求：
- MATLAB版本：确保使用的MATLAB版本支持TreeBagger函数（MATLAB R2014a及以上版本）。
- 工具箱：需要安装统计和机器学习工具箱（Statistics and Machine Learning Toolbox），以支持TreeBagger和confusionchart函数。
性能优化：
- 数据预处理：除了归一化处理，还可以考虑主成分分析（PCA）等降维方法，减少特征数量，提升模型训练效率。
- 特征选择：通过特征重要性分析，选择对分类任务贡献较大的特征，剔除冗余或噪声特征，提升模型性能。
- 交叉验证：采用交叉验证方法评估模型的泛化能力，避免因数据划分偶然性导致的性能波动。
结果验证：
- 交叉验证：采用k折交叉验证方法评估模型的稳定性和泛化能力，尤其在数据集较小的情况下。
- 多次运行：由于随机森林具有随机性，多次运行模型，取平均性能指标，以获得更稳定的评估结果。
- 模型对比：将随机森林分类模型与其他分类模型（如支持向量机、神经网络等）进行对比，评估不同模型在相同数据集上的表现差异。
特征重要性分析：
- 理解特征贡献：通过绘制特征重要性柱状图，了解哪些特征对分类结果影响较大，帮助进行特征工程和优化。
- 特征工程：基于特征重要性分析，进行特征选择、特征组合或特征降维，提升模型性能。