当前位置: 首页 > article >正文

【数据可视化案例】探索影响不同国家预期寿命的主要因素

🧑 博主简介:曾任某智慧城市类企业算法总监,目前在美国市场的物流公司从事高级算法工程师一职,深耕人工智能领域,精通python数据挖掘、可视化、机器学习等,发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者,提供AI相关的技术咨询、项目开发和个性化解决方案等服务,如有需要请站内私信或者联系任意文章底部的的VX名片(ID:xf982831907

💬 博主粉丝群介绍:① 群内初中生、高中生、本科生、研究生、博士生遍布,可互相学习,交流困惑。② 热榜top10的常客也在群里,也有数不清的万粉大佬,可以交流写作技巧,上榜经验,涨粉秘籍。③ 群内也有职场精英,大厂大佬,可交流技术、面试、找工作的经验。④ 进群免费赠送写作秘籍一份,助你由写作小白晋升为创作大佬。⑤ 进群赠送CSDN评论防封脚本,送真活跃粉丝,助你提升文章热度。有兴趣的加文末联系方式,备注自己的CSDN昵称,拉你进群,互相学习共同进步。

在这里插入图片描述

【数据可视化案列】平均预期寿命预测可视化:探索影响不同国家预期寿命的主要因素

  • 一、引言
  • 二、数据预处理与加载
  • 三、数据清洗与转换
  • 四、可视化分析
  • 五、结论与展望

一、引言

  在当今全球健康研究领域,平均预期寿命是衡量一个国家或地区居民健康水平和生活质量的重要指标。本文旨在利用Life-Expectancy-Data-Averaged.csv数据集,通过可视化分析技术,揭示影响不同国家预期寿命的主要因素,并探讨预期寿命如何因地区或经济发展而变化,以及我们是否可以使用其他健康和经济指标来预测预期寿命。

  本文我们重点从以下三个问题点来进行数据分析:

  • 影响不同国家预期寿命的主要因素是什么?
  • 预期寿命如何因地区或经济发展而异?
  • 我们可以使用其他健康和经济指标来预测预期寿命吗?

  读者可以从各个方向出发,通过数据可视化来得到想要分析的问题,如人群的平均体重指数和平均预期寿命的关系?平均受教育年限和平均预期寿命的关系等;

二、数据预处理与加载

  首先,我们需要导入必要的Python库,并加载数据集。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 加载数据集
data = pd.read_csv('Life-Expectancy-Data-Averaged.csv')

# 初步数据探索
print(data.head())
print(data.info())

  具体的数据集的基本情况参考【机器学习案列】平均预期寿命预测一文,这里不在介绍;

三、数据清洗与转换

  由于数据集中包含一些类别型变量(如Country、Region、Economy_status),我们需要对这些变量进行转换,以便进行可视化分析。这里我们可以使用独热编码(One-Hot Encoding)或标签编码(Label Encoding),但考虑到可视化时可能希望保持区域的连续性(如按地理位置排序),我们可以选择保留原始字符串形式,并在可视化时通过颜色或形状进行区分。不过,对于经济状态(Economy_status),我们可以将其转换为更易于理解的标签,如“发展中国家”和“发达国家”。

# 将Economy_status转换为更易于理解的标签
data['Economy_status'] = data['Economy_status'].apply(lambda x: '发展中国家' if x >= 1 else '发达国家')  # 假设1为阈值,具体需根据数据确定(其实这里本来的就是0/1;不用这么麻烦,可以直接替换来实现

  处理绘图时的中文乱码问题:

from pylab import mpl
mpl.rcParams['font.sans-serif'] = ['Microsoft YaHei'] # 指定默认字体:解决plot不能显示中文问题
mpl.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题

四、可视化分析

  1. 影响不同国家预期寿命的主要因素

  我们可以使用散点图或箱线图来展示不同健康和经济指标与预期寿命之间的关系。

# 示例:使用散点图展示GDP_per_capita与Life_expectancy的关系
plt.figure(figsize=(10, 6))
sns.scatterplot(x='GDP_per_capita', y='Life_expectancy', data=data, hue='Economy_status', palette='viridis')
plt.title('GDP per Capita vs Life Expectancy')
plt.xlabel('GDP per Capita (USD)')
plt.ylabel('Life Expectancy (Years)')
plt.legend(title='Economy Status')
plt.show()

在这里插入图片描述
  通过绘制的图发现,发达国家的平均预期寿命比发展中国家的一般都要高一些,这个规律也是符合客观事实的,生活水平高、食品安全等方面因素造成的;

  类似地,我们可以为其他指标(如Infant_deaths、Adult_mortality、Alcohol_consumption等)创建散点图或箱线图。

  1. 预期寿命如何因地区或经济发展而变化

  我们可以使用分组条形图或地图来展示不同地区或经济状态下的预期寿命差异。

# 示例:使用分组条形图展示不同经济状态下的预期寿命差异
plt.figure(figsize=(10, 6))
sns.barplot(x='Economy_status', y='Life_expectancy', data=data, ci=None, palette='coolwarm')
plt.title('Life Expectancy by Economy Status')
plt.xlabel('Economy Status')
plt.ylabel('Life Expectancy (Years)')
plt.show()

在这里插入图片描述
  通过上图我们可以发现,发达国家的平均寿命要高于发达国家10月以上;
  对于地区差异,如果数据集包含详细的地理信息(如经纬度或更细粒度的地区分类),我们可以使用地图可视化工具(如GeoPandas、Plotly Express等)来展示预期寿命的地区分布。

  1. 使用其他健康和经济指标来预测预期寿命

  为了回答这个问题,我们可以使用机器学习模型(如线性回归、随机森林等)来构建预测模型,并通过特征重要性评估来揭示哪些指标对预测结果有显著影响。然而,在本文中,我们将通过可视化手段来初步探索这些指标与预期寿命之间的相关性。

# 计算相关性矩阵
correlation_matrix = data.corr()

# 使用热力图展示相关性矩阵
plt.figure(figsize=(14, 10))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', vmin=-1, vmax=1)
plt.title('Correlation Matrix of Life Expectancy and Other Indicators')
plt.show()

在这里插入图片描述
  发现Thinness_five_nine_years也就是5-9 岁儿童的瘦患病率 (BMI < 18.5)特征和平均预期寿命是最相关的,相关程度达到0.9;
  通过观察热力图中的相关性系数,我们可以初步判断哪些指标与预期寿命有显著的相关性。然后,我们可以选择这些相关性较高的指标作为预测模型的输入特征。

五、结论与展望

  通过本文的可视化分析,我们揭示了影响不同国家预期寿命的主要因素,并探讨了预期寿命如何因地区或经济发展而变化。我们还初步探索了使用其他健康和经济指标来预测预期寿命的可能性。未来,我们可以进一步构建机器学习模型来验证这些指标的预测能力,并尝试结合更多的数据源和更复杂的可视化技术来深化我们的理解。

  请注意,以上代码和可视化分析仅作为示例,实际应用中可能需要根据具体数据和业务需求进行调整和优化。


http://www.kler.cn/a/446663.html

相关文章:

  • 【Mysql优化】SQL优化最佳实践分析与总结
  • Connecting to Oracle 11g Database in Python
  • 知网研学 | 知网文献(CAJ+PDF)批量下载
  • 使用 datamodel-code-generator 从 MySQL 生成 Python 模型
  • 启用WSL后,使用ssh通道连接ubuntu
  • 【Apache Doris】周FAQ集锦:第 26 期
  • Flutter:CustomScrollView自定义滚动使用
  • vue2,vue3 中 v-for 和v-if的优先级
  • 30.装饰器
  • 【Ubuntu】安装QQ
  • Apache SeaTunnel 增强对csv读取时分割字段的能力
  • 【论文笔记】欧美学术论文写作习惯解析:非母语作者的指南
  • 仓鼠身长能长到多少厘米?
  • 《第十二部分》1.STM32之RTC实时时钟介绍---BKP实验
  • 期权懂|2024年12月国内最新期权开通期权条件有什么?
  • 订单超时自动取消的7种方案
  • 深入理解YOLO系列目标检测头的设定方式
  • 如何有效划分服务器磁盘空间?具体的步骤和流程
  • 本地摄像头视频流在html中打开
  • 【机器学习】以机器学习为翼,翱翔网络安全创新苍穹
  • 汽车IVI中控开发入门及进阶(43):NanoVG
  • 打造智慧医院挂号枢纽:SSM 与 Vue 融合的系统设计与实施
  • 【单片机原理】第1章 微机基础知识,运算器,控制器,寄存器,微机工作过程,数制转换
  • HuggingFace datasets - 下载数据
  • C语言数据库管理系统示例:文件操作、内存管理、错误处理与动态数据库设计 栈和堆的内存分配
  • [c++进阶(二)] 智能指针详细剖析--RAII思想