当前位置: 首页 > article >正文

2024.9.24 数据分析

资料

111个Python数据分析实战项目,代码已跑通,数据可下载_python数据分析项目案例-CSDN博客

【数据挖掘六大项目实战】敢说这是全B站讲的最详细最通俗易懂的数据挖掘教程!整整60集!学不会来找我!-数据挖掘、数据挖掘与数据分析、人工智能、python_哔哩哔哩_bilibili


数据挖掘流程

(1)数据读取

  • 读取数据,展示
  • 统计数据各项指标
  • 明确数据规模与要完成的任务

(2)特征理解分析

  • 单特征分析,逐个变量分析其对结果的影响
  • 多变量统计分析,综合考虑多种情况影响
  • 统计绘图得结果

(3)数据清洗与预处理

  • 对缺失值进行填充
  • 特征标准化/归一化
  • 筛选有价值的特征
  • 分析特征之间的相关性

(4)建立模型

  • 特征数据与标签准备
  • 数据集切分
  • 多种建模算法对比
  • 集成策略等方案改进

挑选兵器

    python

  • Numpy-科学计算库,用于矩阵运算
  • Pandas-数据分析处理库
  • Matplotlib-可视化库
  • Seaborn-可视化库
  • Scikit-learn-机器学习库,机器学习算法

Sklearn scikit-learn: machine learning in Python — scikit-learn 1.5.2 documentation

(针对感兴趣的领域,练习,看例子)

数据集可以从Kaggle下载(泰坦尼克号)---流程案例

(1)

# 读取数据
data = pandas.read_csv('train.csv')
data.head()
# 看缺失值
data.isnull().sum()
# 整体看数据
data.describe()
  •  可以绘图展示
  • 分析问题

(2)

数据特征分为:连续值和离散值

  • 离散值:性别、登船地点
data.groupby(['Sex','Survived'])['Survived'].count()

        Pclass-船舱等级跟获救情况的关系 crosstab

        船舱等级结合性别因素 crosstab

        crosstab之后可以通过画图展示得更直观一些

        可以得出一些结论(帮助建立模型)

  • 连续值:年龄,船票价格

        平均年龄、最小年龄、最大年龄

​​​​​​小提琴图

        可以得出一些结论(帮助建立模型)

(3)

缺失值填充

  • 平均值
  • 经验值
  • 回归模型预测
  • 删除掉

年龄缺失值填充:年龄区间比较大,可以根据男女来填充年龄(尽可能利用已有的数据信息使得填充的值更加合理)根据姓名的昵称

可以采用多种缺失值填充方法(多个副本)

码头缺失值填充:经验值填充,可以根据与其他特征之间的分组关系获取“经验”

——————————

seaborn画图

这个部分可以对不同特征之间进行绘图,趋势对比,观察,选择有用的特征

(4)模型选择

(后面的课程没有了T-T)


http://www.kler.cn/a/318475.html

相关文章:

  • 操作系统lab4-页面置换算法的模拟
  • react-redux useSelector钩子 学习样例 + 详细解析
  • 高效稳定!新加坡服务器托管方案助力企业全球化布局
  • 浅谈:基于三维场景的视频融合方法
  • 传奇996_21——龙岭事件
  • 深度学习——优化算法、激活函数、归一化、正则化
  • 努比亚z17努比亚NX563j原厂固件卡刷包下载_刷机ROM固件包下载-原厂ROM固件-安卓刷机固件网
  • 智慧城市主要运营模式分析
  • [附源码]宠物领养管理系统+SpringBoot
  • css实现居中的方法
  • C++ prime plus-4-编程练习
  • vue echarts tooltip使用动态模板
  • Web3技术在元宇宙中的应用:从区块链到智能合约
  • 搜维尔科技:手指舞测试Manus VR数据手套手指追踪功能
  • HtmlCss 基础总结(基础好了才是最能打的)五
  • 代码随想录算法训练营第二十八天| 122.买卖股票的最佳时机 II、55. 跳跃游戏、45.跳跃游戏 II、1005.K次取反后最大化的数组和
  • 线程知识点补充
  • uniapp map设置高度为100%后,会拉伸父容器的高度
  • 练习题 - Django 4.x Models Meta 元数据选项
  • C++类和对象(中)【下篇】
  • 考研数据结构——C语言实现插入排序
  • 2024百度的组织架构和产品分布
  • Java Collectors工具类
  • js进阶——词法作用域
  • 无人机蜂群作战会成为未来战争的主要形式吗,该如何反制呢?
  • 前端——阿里图标的使用