当前位置: 首页 > article >正文

【MATLAB】使用梯度提升树在回归预测任务中进行特征选择(深度学习的数据集处理)

1.梯度提升树在神经网络的应用

        使用梯度提升树进行特征选择的好处在于可以得到特征的重要性分数,从而识别出对目标变量预测最具影响力的特征。这有助于简化模型并提高其泛化能力,减少过拟合的风险,并且可以加快模型训练和推理速度。此外,特征选择可以帮助理解数据,并为进一步的特征工程提供指导,有效地提高模型的预测性能。
        梯度提升树(GBT)是一种强大的监督学习算法,常用于回归和分类问题。通过利用多棵决策树的集成学习方式,GBT 能够捕获非线性关系、处理复杂的数据结构,并对特征之间的相互作用进行建模。因此,使用梯度提升树进行特征选择可以帮助构建更简洁、高效的模型,提高预测准确性,同时保持较好的解释性。

通俗点讲就是,用科学、合理的方法去除掉数据集中不需要的特征。常用在回归预测任务的数据集处理中(也就是N个输入特征,一个输出特征)。

2.代码实现

这一部分主要是进行环境设置。关闭了 MATLAB 的警告信息显示,关闭所有先前打开的图形窗口,清除了 MATLAB 工作区中的所有变量,并清空命令窗口。

warning off % 关闭警告信息显示
close all % 关闭所有图形窗口
clear % 清除工作区变量
clc % 清空命令窗口

这里是用 readtable 函数从名为 "01.csv" 的CSV文件中读取数据并将其存储在变量 data 中。如果数据文件不包含表头,则需要使用 readmatrix 函数。

data = readtable('01.csv'); % 如果数据文件不包含表头,请使用readmatrix函数

这段代码将数据拆分为特征和目标变量。其中 X 存储假设前 2000 行数据的前 6 列是特征,y 存储假设前 2000 行数据的最后一列是目标变量。

X = data{1:2000, 1:6}; % 假设前6列是特征
y = data{1:2000, 7};   % 假设最后一列是目标变量

这部分使用 fitensemble 函数构建了一个包含 100 棵树的 LSBoost 集成模型,用于回归任务。

ens = fitensemble(X, y, 'LSBoost', 100, 'Tree', 'Type', 'regression');

在这个部分中,计算了特征的重要性得分,并将其进行了归一化处理。然后将其显示出来。

featureImportance = predictorImportance(ens);
normalizedFeatureImportance = featureImportance / sum(featureImportance);
disp(normalizedFeatureImportance);

这一部分可视化了特征重要性得分,通过绘制条形图展示各个特征的重要性。

bar(normalizedFeatureImportance);
xlabel('特征');
ylabel('重要性得分');
title('特征重要性');

这一部分代码输出了最重要的四个特征,并重新设置了图表横坐标。(笔者的数据集格式为6个输入一个输出的风力发电机功率数据集)

topFeaturesNames = {'湿度', '真实风速', '气象风速', '风向', '温度', '气压'};
disp('最重要的特征是:');
disp(topFeaturesNames(topFeatures));
xticklabels(topFeaturesNames);

 3.运行结果

        运行结果如下(以笔者的风力发电机数据集为例):

 4.完整代码

%% 清空环境变量
warning off % 关闭警告信息显示
close all % 关闭所有图形窗口
clear % 清除工作区变量
clc % 清空命令窗口
% 读取CSV文件
data = readtable('01.csv'); % 如果数据文件不包含表头,请使用readmatrix函数

% 将数据拆分为特征和目标变量
X = data{1:2000, 1:6}; % 假设前6列是特征
y = data{1:2000, 7};   % 假设最后一列是目标变量

ens = fitensemble(X, y, 'LSBoost', 100, 'Tree', 'Type', 'regression');

% 计算特征的重要性分数
featureImportance = predictorImportance(ens);
% 将特征的重要性得分归一化处理
normalizedFeatureImportance = featureImportance / sum(featureImportance);
disp(normalizedFeatureImportance);

% 可视化特征重要性
bar(normalizedFeatureImportance);
xlabel('特征');
ylabel('重要性得分');
title('特征重要性');

% 根据得分排序特征
[sortedImportance, sortedIdx] = sort(normalizedFeatureImportance, 'descend');
topFeatures = sortedIdx(1:4); % 选择最重要的四个特征

% 输出最重要的特征
topFeaturesNames = {'湿度', '真实风速', '气象风速', '风向', '温度', '气压'};
disp('最重要的特征是:');
disp(topFeaturesNames(topFeatures));
% 重新设置图表横坐标
xticklabels(topFeaturesNames);

http://www.kler.cn/a/230035.html

相关文章:

  • 【pyspark学习从入门到精通22】机器学习库_5
  • redis 底层数据结构
  • 【软件国产化】| Windows和Linux下文件名后缀是否区分大小写
  • 第 38 章 -GO语言 事件驱动架构
  • 【青牛科技】D1671 75Ω 带4级低通滤波的单通道视频放大电 路芯片介绍
  • 【软考速通笔记】系统架构设计师③——信息安全技术基础知识
  • mysql清空表数据后如何让自增ID仍从1开始
  • IDEA 配置和缓存目录 设置
  • Vue3——创建一个应用
  • 【知识图谱+大模型的紧耦合新范式】Think-on-Graph:解决大模型在医疗、法律、金融等垂直领域的幻觉
  • 第七届西湖论剑·中国杭州网络安全技能大赛 AI 回声海螺 WP
  • ETL是什么,有哪些ETL工具?就业前景如何?
  • Java设计模式-责任链模式
  • 【类与对象(中)】
  • Java开发IntelliJ IDEA2023
  • GitLag所有操作-汇总
  • vue 修饰器
  • Rust基础拾遗--看的不多只看一篇--基础
  • 09-错误处理
  • Vue-54、Vue技术vuex中四个map使用(mapState、mapGetters、mapActions、mapMutations)
  • 阿里云服务器centos_7_9_x64位,3台,搭建k8s集群
  • 幻兽帕鲁怎么样?好玩? Mac版的玩《幻兽帕鲁》也很简单,只需三个步骤
  • 计算机网络——新型网络架构:SDN/NFV
  • 【计算机二级考试C语言】C可变参数
  • docker复习笔记01(小滴课堂)安装+部署mysql
  • C语言应用实例——贪吃蛇