当前位置: 首页 > article >正文

睡眠时间影响因素K-Means可视化分析+XGBoost预测

1. 导包及数据展示

import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.cluster import KMeans
from xgboost import XGBRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.preprocessing import StandardScaler

import warnings
warnings.filterwarnings("ignore")
# 读取数据
data = pd.read_csv('/home/mw/input/sleep5895/sleep.csv', encoding='GBK')
data.head()

 

# 查看字段的详细信息
data.describe().T

 查看缺失值,根据结果可以得出没有缺失值的结论

data.isnull().sum()

2. 数据可视化分析

2.1 字段相关性矩阵

 

# 计算相关性矩阵
correlation_matrix = data.corr()

# 绘制热力图
plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=True, cmap="coolwarm", fmt=".2f")
plt.title("变量相关性热力图")
plt.show()

 2.2 锻炼时间与睡眠时间的关系¶

# 散点图:锻炼时间与睡眠时间的关系
plt.figure(figsize=(12, 10))
sns.scatterplot(x="工作时间(小时/天)", y="睡眠时间(小时/夜)", data=data)
plt.title("工作时间与睡眠时间的关系")
plt.xlabel("工作时间(小时/天)")
plt.ylabel("睡眠时间(小时/夜)")
plt.show()

 

 

2.3 咖啡因摄入量

顾名思义,查看咖啡因摄入的频率分布

 

# 分布图:咖啡因摄入量
# plt.figure(figsize=(10, 8))
sns.histplot(data["咖啡因摄入量(毫克/天)"], kde=True, bins=10, color='blue')
plt.title("咖啡因摄入量分布")
plt.xlabel("咖啡因摄入量(毫克/天)")
plt.ylabel("频数")
plt.show()

3. 字段分析

使用 statsmodels 库中的 OLS(普通最小二乘法,Ordinary Least Squares)方法来拟合数据,并输出回归模型的统计摘要

 

X = data.drop(columns=["睡眠时间(小时/夜)"])
y = data["睡眠时间(小时/夜)"]
# 添加常数项(截距)
import statsmodels.api as sm

# 创建回归模型并拟合
model = sm.OLS(y, X).fit()

# 输出模型结果
model.summary()

 

3.1 分析结果

一、回归系数(coef):
1.锻炼时间:每增加1小时的锻炼,睡眠时间会增加 0.8754小时。
2.阅读时间:每增加1小时的阅读,睡眠时间会增加 0.8831小时。
3.手机使用时间:每增加1小时的手机使用,睡眠时间会减少 0.0746小时,不过这项接近显著性(p=0.054),可能需要进一步验证。
4.工作时间:每增加1小时的工作,睡眠时间会增加 0.1470小时。
5.咖啡因摄入量:每摄入1毫克的咖啡因,睡眠时间会增加 0.0036小时。
6.放松时间:每增加1小时的放松,睡眠时间会增加 1.1336小时。
二、标准误差(std err):估计系数的不确定性,标准误差越小,系数越可靠。
三、t值(t):回归系数与其标准误差的比值,用于假设检验。t值越大,表示该自变量的影响越显著。
四、p值(P>|t|):用于检验每个自变量的显著性。通常,p值小于0.05表示自变量对因变量的影响是显著的。
例如 锻炼时间 和 阅读时间 的 p值为 0.000,意味着这两个变量对睡眠时间有显著影响。
手机使用时间 的 p值为 0.054,接近显著性水平 0.05,可以考虑进一步分析或调整模型。
95%置信区间:表示回归系数的可信范围,例如 锻炼时间的置信区间 是 [0.769, 0.982],即我们有 95% 的信心认为锻炼时间对睡眠时间的影响在这个区间内。

4. 聚类分析

对标准化的数据进行聚类,类别数可自选

scaler = StandardScaler()
scaled_data = scaler.fit_transform(data)

# K-means聚类
# n_clusters为类别数,可自定义
kmeans = KMeans(n_clusters=4, random_state=42)
data['Cluster'] = kmeans.fit_predict(scaled_data)

4.1 聚类结果展示

# 创建2x3的子图
fig, axes = plt.subplots(3, 2, figsize=(18, 20))

# 绘制散点图,展示其他字段与睡眠时间的关系
sns.scatterplot(data=data, x="锻炼时间(小时/天)", y="睡眠时间(小时/夜)", hue="Cluster", palette="viridis", ax=axes[0, 0])
axes[0, 0].set_title("锻炼时间 vs 睡眠时间")
axes[0, 0].set_xlabel("锻炼时间(小时/天)")
axes[0, 0].set_ylabel("睡眠时间(小时/夜)")

sns.scatterplot(data=data, x="阅读时间(小时/天)", y="睡眠时间(小时/夜)", hue="Cluster", palette="viridis", ax=axes[0, 1])
axes[0, 1].set_title("阅读时间 vs 睡眠时间")
axes[0, 1].set_xlabel("阅读时间(小时/天)")
axes[0, 1].set_ylabel("睡眠时间(小时/夜)")

sns.scatterplot(data=data, x="手机使用时间(小时/天)", y="睡眠时间(小时/夜)", hue="Cluster", palette="viridis", ax=axes[1, 0])
axes[1, 0].set_title("手机使用时间 vs 睡眠时间")
axes[1, 0].set_xlabel("手机使用时间(小时/天)")
axes[1, 0].set_ylabel("睡眠时间(小时/夜)")

sns.scatterplot(data=data, x="工作时间(小时/天)", y="睡眠时间(小时/夜)", hue="Cluster", palette="viridis", ax=axes[1, 1])
axes[1, 1].set_title("工作时间 vs 睡眠时间")
axes[1, 1].set_xlabel("工作时间(小时/天)")
axes[1, 1].set_ylabel("睡眠时间(小时/夜)")

sns.scatterplot(data=data, x="咖啡因摄入量(毫克/天)", y="睡眠时间(小时/夜)", hue="Cluster", palette="viridis", ax=axes[2, 0])
axes[2, 0].set_title("咖啡因摄入量 vs 睡眠时间")
axes[2, 0].set_xlabel("咖啡因摄入量(毫克/天)")
axes[2, 0].set_ylabel("睡眠时间(小时/夜)")

sns.scatterplot(data=data, x="放松时间(小时/天)", y="睡眠时间(小时/夜)", hue="Cluster", palette="viridis", ax=axes[2, 1])
axes[2, 1].set_title("放松时间 vs 睡眠时间")
axes[2, 1].set_xlabel("放松时间(小时/天)")
axes[2, 1].set_ylabel("睡眠时间(小时/夜)")

# 调整子图间距
plt.tight_layout()
plt.show()

 

 

5. XGBoost回归预测

 

# 数据划分
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 标准化
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

5.1 模型定义

定义模型参数什么的

 

model = XGBRegressor(
    n_estimators=200,          # 增加树的数量
    learning_rate=0.05,        # 降低学习率
    max_depth=6,               # 控制树的深度
    min_child_weight=3,        # 控制分裂的最小权重和
    gamma=0.2,                 # 防止过拟合
    subsample=0.8,             # 随机采样比例
    colsample_bytree=0.8,      # 特征采样比例
    reg_alpha=0.1,             # L1 正则化
    reg_lambda=1,              # L2 正则化
    random_state=42            # 保持结果可复现
)
model.fit(X_train_scaled, y_train)

5.2 预测及评估

 

# 预测
y_pred = model.predict(X_test_scaled)

# 评估
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
mae = mean_absolute_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"MSE: {mse:.2f}")
print(f"RMSE: {rmse:.2f}")
print(f"MAE: {mae:.2f}")
print(f"R²: {r2:.2f}")

 5.3 模型结果可视化

# 绘制散点图
plt.scatter(y_test, y_pred, alpha=0.7, label="Predictions")
plt.xlabel("实际睡眠时间")
plt.ylabel("预测睡眠时间")
plt.title("实际睡眠时间及预测睡眠时间对比图")
# 添加基准线
min_val = min(min(y_test), min(y_pred))  # y轴最小值
max_val = max(max(y_test), max(y_pred))  # y轴最大值
plt.plot([min_val, max_val], [min_val, max_val], 'r--', label="基准线 (y = x)")  # 基准线
# 添加图例
plt.legend()
# 显示图表
plt.show()

 

 

6. 结果总结

1. 放松时间,锻炼时间,阅读时间对睡眠时间影响较大
2. 模型结果展示的MSE并不好,原因是睡眠时间数据不稳定,导致偏差太大了,可视化结果来看也还是有一定的准确性的


http://www.kler.cn/a/517231.html

相关文章:

  • Vue3笔记——(二)
  • 计算机网络之物理层
  • 终极的复杂,是简单
  • 【网络协议】【http】【https】TLS解决了HTTP存在的问题-加密通信+摘要,数字签名+CA证书
  • Unity自学之旅04
  • 数学规划问题2 .有代码(非线性规划模型,最大最小化模型,多目标规划模型)
  • 第15个项目:一个有趣的豆瓣电影TOP爬虫
  • ISIS基础知识
  • 2024-2025自动驾驶技术演进与产业破局的深度实践——一名自动驾驶算法工程师的年度技术总结与行业洞察
  • 基于SpringBoot+Vue的智慧动物园管理系统的设计与实现
  • 智能运维分析决策系统:赋能数字化转型的智慧引擎
  • qt 设置鼠标样式的几种方法
  • ceph新增节点,OSD设备,标签管理(二)
  • 付费会员制与开源AI智能名片S2B2C商城小程序在现代营销中的应用
  • 八股学习 微服务篇
  • 【Ubuntu】使用远程桌面协议(RDP)在Windows上远程连接Ubuntu
  • AI Agent的记忆系统实现:从短期对话到长期知识
  • React Native 0.77发布,新样式特性,Android 16KB页面支持,Swift模板
  • Vue 使用moment格式化时间
  • Meta的AIGC视频生成模型——Emu Video
  • 联想电脑怎么设置u盘启动_联想电脑设置u盘启动方法(支持新旧机型)
  • ansible自动化运维实战--script、unarchive和shell模块(6)
  • LeetCode 热题 100_实现 Trie (前缀树)(54_208_中等_C++)(图;前缀树;字典树)
  • C++ 静态变量static的使用方法
  • 用JAVA写算法之输入输出篇
  • Spring Boot 集成 Redis 全解析