当前位置: 首页 > article >正文

【机器学习】Kaggle实战Rossmann商店销售预测(项目背景、数据介绍/加载/合并、特征工程、构建模型、模型预测)

文章目录

  • 1、项目背景
  • 2、数据介绍
  • 3、数据加载
    • 3.1 查看数据
    • 3.2 空数据处理
      • 3.2.1 训练数据
      • 3.2.2 测试数据
      • 3.3.3 商店数据处理
      • 3.3.4 销售时间关系
  • 4、合并数据
  • 5、特征工程
  • 6、构建训练数据和测试数据
  • 7、数据属性间相关性系数
  • 8、提取模型训练的数据集
  • 9、构建模型
    • 9.1 定义评价函数
    • 9.2 模型训练
      • 9.2.1 params参数说明
      • 9.2.2 xgb.train()参数说明
    • 9.3 模型评估
    • 9.4 模型优化
      • 9.4.1 整体模型优化
      • 9.4.2 更加细致的优化(考虑不同店铺)
    • 9.5 模型预测

Kaggle

1、项目背景

使用商店、促销和竞争对手数据预测销售Rossmann在欧洲国家经营着3000多家日化用品超市。目前,Rossmann商店经理的任务是提前6周预测他们的日销售额。商店的销售受到许多因素的影响,包括促销、竞争、学校和国家假日、季节性和地域性。由于数以千计的管理者根据自己的特殊情况预测销售,结果的准确性可能会有很大的差异。

因此使用机器学习算法对销量进行预测,Rossmann要求预测德国1115家商店的6周日销售额。可靠的销售预测使商店经理能够制定有效的员工时间表,提高生产力和积极性。

在这里插入图片描述
这就是算法和零售、物流领域的一次深度融合,从而提前备货,减少库存、提升资金流转率,促进公司更加健康发展,为员工更合理的工作、休息提供合理安排,为工作效率提高保驾护航。

2、数据介绍

  • train.csv - 包含销售情况的历史数据文件
  • test.csv - 不包含销售情况的历史数据文件
  • sample_submission.csv - 数据提交样本文件
  • store.csv - 商店更多信息文件

在这里插入图片描述

StateHoliday:通常所有商店都在国家假日关门:a = 公共假日, b = 复活节假日,c = 圣诞节,0
= 无

3、数据加载

3.1 查看数据

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import xgboost as xgb
import time

train = pd.read_csv('./data/train.csv',dtype={'StateHoliday':np.string_}) # 加载数据时,为特定字段指定了数据类型
test = pd.read_csv('./data/test.csv',dtype={'StateHoliday':np.string_})
store = pd.read_csv('./data/store.csv') # 每个店铺的详情
display(train.head(),test.head(),store.head())

  • StateHoliday中数据为:a = 公共假日, b = 复活节假日,c = 圣诞节,0 = 无。既有字符串也有数
    字,需要指定类型
  • 数据中存在空数据,一次需要处理空数据

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

3.2 空数据处理

3.2.1 训练数据

train.isnull().sum() # 表明train这个数据中没有空数据
Store            0
DayOfWeek        0
Date             0
Sales            0
Customers        0
Open             0
Promo            0
StateHoliday     0
SchoolHoliday    0
dtype: int64

train数据无缺失,因此无需处理

3.2.2 测试数据

test.isnull().sum()
Id                0
Store             0
DayOfWeek         0
Date              0
Open             11
Promo             0
StateHoliday      0
SchoolHoliday     0
dtype: int64
cond = test['Open'].isnull()
test[cond]

在这里插入图片描述

cond = train['Store'] == 622
df = train[cond]
df.sort_values(by = 'Date').iloc[-50:] # 根据过往的数据,对测试数据中622号店铺进行填充
# 原来大部分情况,622都是营业!

在这里插入图片描述

test.fillna(1,inplace=True) # 填充空数据
test.isnull().sum()
Id               0
Store            0
DayOfWeek        0
Date             0
Open             0
Promo            0
StateHoliday     0
SchoolHoliday    0
dtype: int64

3.3.3 商店数据处理

store.isnull().sum()
Store                          0
StoreType                      0
Assortment                     0
CompetitionDistance            3
CompetitionOpenSinceMonth    354
CompetitionOpenSinceYear     354
Promo2                         0
Promo2SinceWeek              544
Promo2SinceYear              544
PromoInterval                544
dtype: int64
v1 = 'CompetitionDistance'
v2 = 'CompetitionOpenSinceMonth'
v3 = 'CompetitionOpenSinceYear'
v4 = 'Promo2SinceWeek'
v5 = 'Promo2SinceYear'
v6 = 'PromoInterval'

# v2和v3 同时缺失
store[(store[v2].isnull()) & (store[v3].isnull())].shape
# v4、v5、v6同时缺失
store[(store[v4].isnull())&(store[v5].isnull())&(store[v6].isnull())].shape

# 下面对缺失数据进行填充
# 店铺竞争数据缺失,而且缺失的都是对应的。
# 原因不明,而且数量也比较多,如果用中值或均值来填充,有失偏颇。暂且填0,解释意义就是刚开业
# 店铺促销信息的缺失是因为没有参加促销活动,所以我们以0填充
store.fillna(0,inplace=True) # 填充成,解释含义:刚开业
store.isnull().sum()

Store                        0
StoreType                    0
Assortment                   0
CompetitionDistance          0
CompetitionOpenSinceMonth    0
CompetitionOpenSinceYear     0
Promo2                       0
Promo2SinceWeek              0
Promo2SinceYear              0
PromoInterval                0
dtype: int64

3.3.4 销售时间关系

分析店铺销量随时间的变化

cond = train['Sales'] > 0
sales_data = train[cond] # 获取销售额为正的数据
sales_data.loc[train['Store'] == 1].plot(x = 'Date',y = 'Sales',title = 'Store_1',
                                         figsize = (16,4),color = 'red')

在这里插入图片描述
从图中可以看出店铺的销售额是有周期性变化的,一年中11,12月份销量相对较高,可能是季节(圣诞节)因素或者促销等原因。此外从2014年6-9月份的销量来看,6,7月份的销售趋势与8,9月份类似,而我们需要预测的6周在2015年8,9月份,因此我们可以把2015年6,7月份最近6周的1115家店的数据留出作为测试数据,用于模型的优化和验证!

test['Date'].unique() # 测试数据,要预测8~9月份的销售情况
array(['2015-09-17', '2015-09-16', '2015-09-15', '2015-09-14',
       '2015-09-13', '2015-09-12', '2015-09-11', '2015-09-10',
       '2015-09-09', '2015-09-08', '2015-09-07', '2015-09-06',
       '2015-09-05', '2015-09-04', '2015-09-03', '2015-09-02',
       '2015-09-01', '2015-08-31', '2015-08-30', '2015-08-29',
       '2015-08-28', '2015-08-27', '2015-08-26', '2015-08-25',
       '2015-08-24', '2015-08-23', '2015-08-22', '2015-08-21',
       '2015-08-20', '2015-08-19', '2015-08-18', '2015-08-17',
       '2015-08-16', '2015-08-15', '2015-08-14', '2015-08-13',
       '2015-08-12', '2015-08-11', '2015-08-10', '2015-08-09',
       '2015-08-08', '2015-08-07', '2015-08-06', '2015-08-05',
       '2015-08-04', '2015-08-03', '2015-08-02', '2015-08-01'],
      dtype=object)

4、合并数据

display(train.shape,test.shape)
cond = train['Sales'] > 0
train = train[cond] # 过滤了销售额小于0的数据

train = pd.merge(train,store,on = 'Store',how = 'left')
test = pd.merge(test,store,on = 'Store',how = 'left')

train.info()
Int64Index: 844338 entries, 0 to 844337
Data columns (total 18 columns):
 #   Column                     Non-Null Count   Dtype  
---  ------                     --------------   -----  
 0   Store                      844338 non-null  int64  
 1   DayOfWeek                  844338 non-null  int64  
 2   Date                       844338 non-null  object 
 3   Sales                      844338 non-null  int64  
 4   Customers                  844338 non-null  int64  
 5   Open                       844338 non-null  int64  
 6   Promo                      844338 non-null  int64  
 7   StateHoliday               844338 non-null  object 
 8   SchoolHoliday              844338 non-null  int64  
 9   StoreType                  844338 non-null  object 
 10  Assortment                 844338 non-null  object 
 11  CompetitionDistance        844338 non-null  float64
 12  CompetitionOpenSinceMonth  844338 non-null  float64
 13  CompetitionOpenSinceYear   844338 non-null  float64
 14  Promo2                     844338 non-null  int64  
 15  Promo2SinceWeek            844338 non-null  float64
 16  Promo2SinceYear            844338 non-null  float64
 17  PromoInterval              844338 non-null  object 
dtypes: float64(5), int64(8), object(5)
memory usage: 122.4+ MB
test.info()
Int64Index: 41088 entries, 0 to 41087
Data columns (total 17 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   Id                         41088 non-null  int64  
 1   Store                      41088 non-null  int64  
 2   DayOfWeek                  41088 non-null  int64  
 3   Date                       41088 non-null  object 
 4   Open                       41088 non-null  float64
 5   Promo                      41088 non-null  int64  
 6   StateHoliday               41088 non-null  object 
 7   SchoolHoliday              41088 non-null  int64  
 8   StoreType                  41088 non-null  object 
 9   Assortment                 41088 non-null  object 
 10  CompetitionDistance        41088 non-null  float64
 11  CompetitionOpenSinceMonth  41088 non-null  float64
 12  CompetitionOpenSinceYear   41088 non-null  float64
 13  Promo2                     41088 non-null  int64  
 14  Promo2SinceWeek            41088 non-null  float64
 15  Promo2SinceYear            41088 non-null  float64
 16  PromoInterval              41088 non-null  object 
dtypes: float64(6), int64(6), object(5)
memory usage: 5.6+ MB

5、特征工程

for data in [train,test]:
	# 将时间特征进行拆分和转化
	data['year']=data['Date'].apply(lambda x:x.split('-')[0]).astype(int)
	data['month']=data['Date'].apply(lambda x:x.split('-')[1]).astype(int)
	data['day']=data['Date'].apply(lambda x:x.split('-')[2]).astype(int)
	# 将'PromoInterval'特征转化为'IsPromoMonth'特征,表示某天某店铺是否处于促销月,1表示是,0表示否
	# 提示下:这里尽量不要用循环,用这种广播的形式,会快很多。循环可能会让你等的想哭
	month2str={1:'Jan',2:'Feb',3:'Mar',4:'Apr',5:'May',6:'Jun',7:'Jul',8:'Aug',9:'Sep',10:'Oct
',11:'Nov',12:'Dec'}
	data['monthstr'] = data['month'].map(month2str)
	convert = lambda x: 0 if x['PromoInterval'] == 0 else 1 if x['monthstr'] in x['PromoInterval'] else 0
	data['IsPromoMonth']= data.apply(convert, axis=1)
	# 将存在其它字符表示分类的特征转化为数字
	mappings={'0':0,'a':1,'b':2,'c':3,'d':4}
	data['StoreType'].replace(mappings,inplace=True)
	data['Assortment'].replace(mappings,inplace=True)
	data['StateHoliday'].replace(mappings,inplace=True)


6、构建训练数据和测试数据

# 删掉训练和测试数据集中不需要的特征
df_train=train.drop(['Date','Customers','Open','PromoInterval','monthstr'],axis=
1)
df_test=test.drop(['Id','Date','Open','PromoInterval','monthstr'],axis=1)
# 如上所述,保留训练集中最近六周的数据用于后续模型的测试
X_train=df_train[6*7*1115:]
X_test=df_train[:6*7*1115]

7、数据属性间相关性系数

plt.figure(figsize=(24,20))
plt.rcParams['font.size'] = 12
sns.heatmap(df_train.corr(),cmap='RdYlGn_r',annot=True,vmin=-1,vmax=1)

在这里插入图片描述

8、提取模型训练的数据集

_ = plt.hist(X_train['Sales'],bins = 100) # 目标值,销售额,正态分布,不够正!!!

在这里插入图片描述

#拆分特征与标签,并将标签取对数处理
y_train = np.log1p(X_train['Sales'])
y_test = np.log1p(X_test['Sales'])
X_train = X_train.drop(['Sales'],axis=1)
X_test = X_test.drop(['Sales'],axis=1)

使用np.log1p进行对目标值处理,目标值更加正态化!

_ = plt.hist(y_train,bins = 100) # 目标值,销售额,正态分布,不够正!!!

在这里插入图片描述

9、构建模型

9.1 定义评价函数

均方根百分比误差

在这里插入图片描述

#定义评价函数,可以传入后面模型中替代模型本身的损失函数
def rmspe(y,yhat):
	return np.sqrt(np.mean((1 - yhat/y)**2))
	
# 起放大作用
def rmspe_xg(yhat,y):
	y=np.expm1(y.get_label())
	yhat=np.expm1(yhat)
	return 'rmspe',rmspe(y,yhat)

9.2 模型训练

%%time
params = {'objective':'reg:linear',
          'booster':'gbtree',
          'eta':0.03,
          'max_depth':10,
          'subsample':0.9,
          'colsample_bytree':0.7,
          'silent':1,
          'seed':10}

num_boost_round = 6000

dtrain = xgb.DMatrix(X_train,y_train)
dtest = xgb.DMatrix(X_test,y_test) # 保留的验证数据

print('模型训练开始……')

evals = [(dtrain,'train'),(dtest,'validation')]

gbm = xgb.train(params,# 模型参数
          dtrain, # 训练数据
          num_boost_round, # 轮次,决策树的个数
          evals = evals,# 验证,评估的数据
          early_stopping_rounds=100, # 在验证集上,当连续n次迭代,分数没有提高后,提前终止训练
          feval=rmspe_xg,# 模型评估的函数
          verbose_eval=True)# 打印输出log日志,每次训练详情

gbm.save_model('./train_model.json')
[0]	train-rmse:8.01963	train-rmspe:6230.18506	validation-rmse:8.04813	validation-rmspe:6387.25244
[1]	train-rmse:7.77951	train-rmspe:4099.43457	validation-rmse:7.80813	validation-rmspe:4203.82471
[2]	train-rmse:7.54664	train-rmspe:2886.67944	validation-rmse:7.57505	validation-rmspe:2959.31250
[3]	train-rmse:7.32073	train-rmspe:2119.01221	validation-rmse:7.34880	validation-rmspe:2171.24536
[4]	train-rmse:7.10159	train-rmspe:1601.73401	validation-rmse:7.12929	validation-rmspe:1640.44104
[5]	train-rmse:6.88913	train-rmspe:1238.18860	validation-rmse:6.91654	validation-rmspe:1267.88232
[6]	train-rmse:6.68305	train-rmspe:973.55157	validation-rmse:6.71035	validation-rmspe:996.92786
[7]	train-rmse:6.48307	train-rmspe:775.59680	validation-rmse:6.51005	validation-rmspe:793.93579
[8]	train-rmse:6.28915	train-rmspe:625.33978	validation-rmse:6.31603	validation-rmspe:640.10901
[9]	train-rmse:6.10102	train-rmspe:509.09106	validation-rmse:6.12764	validation-rmspe:520.99493
[10]	train-rmse:5.91858	train-rmspe:418.29568	validation-rmse:5.94485	validation-rmspe:427.94669
[11]	train-rmse:5.74163	train-rmspe:346.45187	validation-rmse:5.76751	validation-rmspe:354.34009
[12]	train-rmse:5.57000	train-rmspe:288.96896	validation-rmse:5.59591	validation-rmspe:295.60095
[13]	train-rmse:5.40351	train-rmspe:242.61772	validation-rmse:5.42900	validation-rmspe:248.07785
[14]	train-rmse:5.24204	train-rmspe:204.91913	validation-rmse:5.26750	validation-rmspe:209.54759
[15]	train-rmse:5.08546	train-rmspe:174.12010	validation-rmse:5.11132	validation-rmspe:178.17413
[16]	train-rmse:4.93355	train-rmspe:148.72492	validation-rmse:4.95911	validation-rmspe:152.16476
[17]	train-rmse:4.78615	train-rmspe:127.62540	validation-rmse:4.81140	validation-rmspe:130.54283
[18]	train-rmse:4.64321	train-rmspe:110.06155	validation-rmse:4.66831	validation-rmspe:112.56993
[19]	train-rmse:4.50456	train-rmspe:95.35991	validation-rmse:4.52980	validation-rmspe:97.55514
[20]	train-rmse:4.37010	train-rmspe:82.98562	validation-rmse:4.39519	validation-rmspe:84.89100
[21]	train-rmse:4.23973	train-rmspe:72.53654	validation-rmse:4.26400	validation-rmspe:74.14584
[22]	train-rmse:4.11327	train-rmspe:63.64868	validation-rmse:4.13671	validation-rmspe:65.01503
[23]	train-rmse:3.99059	train-rmspe:56.06008	validation-rmse:4.01333	validation-rmspe:57.23002
[24]	train-rmse:3.87161	train-rmspe:49.55792	validation-rmse:3.89370	validation-rmspe:50.56471
[25]	train-rmse:3.75620	train-rmspe:43.95873	validation-rmse:3.77841	validation-rmspe:44.86082
[26]	train-rmse:3.64422	train-rmspe:39.11786	validation-rmse:3.66619	validation-rmspe:39.91478
[27]	train-rmse:3.53569	train-rmspe:34.93198	validation-rmse:3.55775	validation-rmspe:35.65234
...
[405]	train-rmse:0.13638	train-rmspe:0.00922	validation-rmse:0.15283	validation-rmspe:0.00465
[406]	train-rmse:0.13620	train-rmspe:0.00919	validation-rmse:0.15265	validation-rmspe:0.00457
[407]	train-rmse:0.13600	train-rmspe:0.00917	validation-rmse:0.15248	validation-rmspe:0.00460
[408]	train-rmse:0.13579	train-rmspe:0.00914	validation-rmse:0.15231	validation-rmspe:0.00462
Wall time: 2min 38s

9.2.1 params参数说明

  • eta[默认是0.3] 和GBM中的learning rate参数类似。通过减少每一步的权重,可以提高模型的鲁棒性。典型值0.01-0.2
  • max_depth [默认是3] 树的最大深度,这个值也是用来避免过拟合的3-10
  • subsample[默认是1] 这个参数控制对于每棵树,随机采样的比例。减小这个参数的值算法会更加
    保守,避免过拟合。但是这个值设置的过小,它可能会导致欠拟合。典型值:0.5-1
  • colsample_bytree[默认是1] 用来控制每颗树随机采样的列数的占比每一列是一个特征0.5-1(要依据特征个数来判断)
  • objective[默认是reg:linear]这个参数定义需要被最小化的损失函数。最常用的值有:
  • binary:logistic二分类的逻辑回归,返回预测的概率非类别。multi:softmax使用softmax的多分类
    器,返回预测的类别。在这种情况下,你还要多设置一个参数:num_class类别数目。

在这里插入图片描述

  • seed[默认是0]随机数的种子,设置它可以复现随机数据的结果,也可以用于调整参数。
  • booster[默认是gbtree ]选择每次迭代的模型,有两种选择:gbtree基于树的模型、gbliner线性模
  • silent[默认值=0]取0时表示打印出运行时信息,取1时表示以缄默方式运行,不打印运行时信息。

9.2.2 xgb.train()参数说明

  • params:这是一个字典,里面包含着训练中的参数关键字和对应的值
  • dtrain:训练的数据
  • num_boost_round:这是指提升迭代的次数,也就是生成多少基模型
  • evals:这是一个列表,用于对训练过程中进行评估列表中的元素。
  • feval: 自定义评估函数
  • early_stopping_rounds:早期停止次数 ,假设为100,验证集的误差迭代到一定程度在100次内不能再继续降低,就停止迭代。要求evals 里至少有 一个元素。
  • verbose_eval (可以输入布尔型或数值型):也要求evals 里至少有 一个元素。如果为True ,则对
  • evals中元素的评估结果会输出在结果中;如果输入数字,假设为5,则每隔5个迭代输出一次
  • learning_rates 每一次提升的学习率的列表
  • xgb_model 在训练之前用于加载的xgb model

9.3 模型评估

print('验证数据表现:') # X_test就是验证数据
X_test.sort_index(inplace=True)
y_test.sort_index(inplace=True)

# 使用算法进行了预测
yhat = gbm.predict(xgb.DMatrix(X_test))

error = rmspe(np.expm1(y_test),np.expm1(yhat))
print('RMSPE:',error)
验证数据表现:
RMSPE: 0.0280719416230981

画图查看,模型评估结果

# 画图查看,模型评估结果
res = pd.DataFrame(data = y_test) # 真实
res['Prediction'] = yhat # 预测

res = pd.merge(X_test,res,left_index=True,right_index=True)

res['Ratio'] = res['Prediction']/res['Sales'] # 预测和真实销量的比率
res['Error'] = abs(1 - res['Ratio']) # 误差率
res['weight'] = res['Sales']/res['Prediction'] # 真实销量占预测值的百分比

from matplotlib import font_manager
fm = font_manager.FontManager()

plt.rcParams['font.family'] = 'STKaiti'

col_1 = ['Sales','Prediction']
col_2 = ['Ratio']

# 随机选择三个店铺,进行可视化
shops = np.random.randint(1,1116,size = 3)

print('全部商店预测值和真实销量的比率是%0.3f' %(res['Ratio'].mean()))

for shop in shops:
    cond = res['Store'] == shop
    df1 = pd.DataFrame(data = res[cond],columns = col_1)
    df2 = pd.DataFrame(data = res[cond],columns = col_2)
    df1.plot(title = '%d商店的预测数据和真实销量的对比' % (shop),figsize = (12,4))
    df2.plot(title = '%d商店的预测数据和真实销量的比率' % (shop),figsize = (12,4))
全部商店预测值和真实销量的比率是1.002

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
从分析结果来看,初始模型已经可以比较好的预测保留数据集的销售趋势,但相对真实值,模型的预测值整体要偏高一些。从对偏差数据分析来看,偏差最大的3个数据也是明显偏高。因此,我们可以以保留数据集为标准对模型进行偏差校正。

# 偏差数据
res.sort_values(by = ['Error'],ascending=False)
res[:10]

9.4 模型优化

9.4.1 整体模型优化

weights = [(0.99 + (i/1000)) for i in range(20)]

errors = []

for w in weights:
    # 偏差校正
    error = rmspe(np.expm1(y_test),np.expm1(yhat * w)) # 这就是对预测值,进行权重乘法,微小改变
    errors.append(error)
    
errors = pd.Series(errors,index=weights)

plt.figure(figsize=(9,6))
errors.plot()

plt.xlabel('权重系数',fontsize = 18)
plt.ylabel('均方根百分比误差',fontsize = 18)

index = errors.argmin()
print('最佳的偏差校正权重:',index,errors.iloc[7],weights[index])
最佳的偏差校正权重: 7 0.0013254117199704312 0.997

在这里插入图片描述

因为每个店铺都有自己的特点,而我们设计的模型对不同的店铺偏差并不完全相同,所以我们需要根据不同的店铺进行一个细致的校正。

9.4.2 更加细致的优化(考虑不同店铺)

shops = np.arange(1,1116)
weights1 = [] # 验证数据每个店铺的权重系数 46830
weights2 = [] # 测试数据每个店铺的权重系数 41088,提交到Kaggle官网

for shop in shops:
    cond = res['Store'] == shop
    df1 = pd.DataFrame(res[cond], columns=col_1) # 验证数据的预测数据和真实销量
    
    cond2 = df_test['Store'] == shop
    df2 = pd.DataFrame(df_test[cond2])
    weights = [(0.98 + (i/1000)) for i in range(40)]
    errors = []
    for w in weights:
        error = rmspe(np.expm1(df1['Sales']),np.expm1(df1['Prediction'] * w))
        errors.append(error)
    errors = pd.Series(errors,index = weights)
    index = errors.argmin() # 最小的索引
    
    best_weight = np.array(weights[index]) # 只是一个数值
    
    weights1.extend(best_weight.repeat(len(df1)).tolist())
    weights2.extend(best_weight.repeat(len(df2)).tolist())
    
# for循环结束,每个店铺的权重,是多少,计算得到了
# 验证数据调整校正系数的排序
X_test = X_test.sort_values(by = 'Store') # 1,2,3,……1115
X_test['weights1'] = weights1 # 权重和店铺,进行一一对应!
X_test = X_test.sort_index() # 根据索引大小进行排序
weights1 = X_test['weights1']
X_test = X_test.drop('weights1',axis = 1)


# 测试数据调整校正系数
df_test = df_test.sort_values(by = 'Store') # 1,2,3,……1115
df_test['weights2'] = weights2 # 权重和店铺,进行一一对应!
df_test = df_test.sort_index() # 根据索引大小进行排序
weights2 = df_test['weights2']
df_test = df_test.drop('weights2',axis = 1)

yhat_new = yhat * weights1 # 预测销售额,校正
rmspe(np.expm1(y_test),np.expm1(yhat_new))
0.0021121179356354716

9.5 模型预测

使用算法,对测试数据,进行预测,不经任何调整校正

test = xgb.DMatrix(df_test)

y_pred = gbm.predict(test) # 算法预测的结果,结果提交Kaggle
# y_pred 是对数运算的结果
# 真实数据,数据转换,幂运算
# 保存数据,不经任何调整校正
result = pd.DataFrame({'ID':np.arange(1,41089),'Sales':np.expm1(y_pred)})

result.to_csv('./result_1.csv',index=False)

对整体模型进行优化

# 对整体模型进行优化
w = 0.997
result = pd.DataFrame({'ID':np.arange(1,41089),'Sales':np.expm1(y_pred * w)})

result.to_csv('./result_2.csv',index=False)

每个店铺的,权重校正,都不同,细致!!!

# 每个店铺的,权重校正,都不同,细致!!!
result = pd.DataFrame({'ID':np.arange(1,41089),'Sales':np.expm1(y_pred * weights2)})

result.to_csv('./result_3.csv',index=False)

上面构建的模型经过优化后,已经有着不错的表现。如果想继续提高预测的精度,可以在模型融合上试试。


http://www.kler.cn/a/502015.html

相关文章:

  • 栈 (算法十二)
  • python-42-使用selenium-wire爬取微信公众号下的所有文章列表
  • Jira用例自动去除summary重复用例
  • VS2015 + OpenCV + OnnxRuntime-Cpp + YOLOv8 部署
  • 国产3D CAD将逐步取代国外软件
  • 设计一个利用事务特性可以阻塞线程的排他锁,并且通过注解和 AOP 来实现
  • 无源器件-电容
  • Docker 安装开源的IT资产管理系统Snipe-IT
  • 高性能计算服务器是指什么?
  • 洛谷 P3853 [TJOI2007] 路标设置 C语言
  • 企业通过私有安全端点访问大型语言模型的益处
  • RNN之:LSTM 长短期记忆模型-结构-理论详解-及实战(Matlab向)
  • 之前手写的两个好用开源组件优化升级
  • 34_Lua概述与环境安装指南
  • 黑马天机学堂学习计划模块
  • js:根据后端返回数据的最大值进行计算然后设置这个最大值为百分之百,其他的值除这个最大值
  • ThreeJs练习——载入外部模型
  • 【源码解析】Java NIO 包中的 HeapByteBuffer
  • C++—9、如何在Microsoft Visual Studio中调试C++
  • 性能测试工具Jmeter负载模拟
  • TPS61022 PFM的机制以及TPS61xxx转换器的PFM与PWM之间的负载阈值
  • 使用jquery的$.ajax提交带有FormData的post请求报错TypeError: Illegal invocation
  • 详解C#调用系统文件窗口:打开文件、保存文件和选择文件夹
  • 【Javaweb02】初探CSS:网页样式设计的入门指南
  • 《机器学习》——TF-IDF(关键词提取)
  • 如何用python实现语音输出