当前位置: 首页 > article >正文

机器学习EDA探查工具Pandas profiling

在最初的数据探查的时候,可以通过pandas的函数,以及matplotlib做图像绘图,这个工作比较重复和低效,所以pandas针对常用的数据列统计和展示,做了EDA工具profiling,可以自动帮助数据分析。

问题1:在python 3.10.11环境下,安装pip install pandas-profiling,运行出现错误

pydantic.errors.PydanticImportError: `BaseSettings` has been moved to the `pydantic-settings` package.

因为profiling版本更新问题,暂时没有去解决。

问题2:升级profiling版本,名称从pandas-profiling变换为ydata_profiling,运行出错

AttributeError: module 'numba' has no attribute 'generated_jit'

判定,仍然是版本冲突。解决方案:

pip uninstall numba

pip install numba

安装出现错误:

 requires joblib<1.4,>=1.2.0, but you have joblib 1.4.2 which is incompatible.
sktime 0.26.0 requires scikit-learn<1.5.0,>=0.24, but you have scikit-learn 1.5.2 which is incompatible.

解决方案:卸载掉scikit-learn,joblib等,然后执行安装

pip install ydata-profiling

会自动安装需要的scikit-learn依赖,最后运行得到HTML文件。

 

 profiling的使用

import pandas as pd
from ydata_profiling import ProfileReport

df = pd.read_csv('dataset/listings-2.csv')
original_report = ProfileReport(df, title='Original Data')
original_report.to_file("original_report.html")

根据显示,对数据处理后可以做对比查看

transformed_report = ProfileReport(df_transformed, title="Transformed Data")
comparison_report = original_report.compare(transformed_report)
comparison_report.to_file("original_vs_transformed.html")


http://www.kler.cn/a/319992.html

相关文章:

  • 计算机组成原理(计算机系统3)--实验二:MIPS64乘法实现实验
  • 【大数据】机器学习-----模型的评估方法
  • Jenkinsfile共享库介绍
  • 【redis】键的全局命令
  • 内联变量(inline variables):在多个文件中共享全局常量
  • 从网络的角度来看,用户输入网址到网页显示,期间发生了什么?
  • nvm以及npm源配置
  • 注意力机制篇 | YOLOv8改进之在C2f模块引入EffectiveSE注意力模块 | 基于SE注意力
  • 聚观早报 | 豆包视频生成大模型发布;华为纯血鸿蒙将开启公测
  • 基于SpringBoot+Vue的考研百科网站系统
  • QT C++ 自学积累 『非技术文』
  • 数字IC设计\FPGA 职位经典笔试面试整理--基础篇2
  • TCP/IP 协议栈
  • 第五届计算机科学与管理科技国际学术会议(ICCSMT 2024)
  • 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-25
  • 【Hadoop】【vim编辑器】【~/.bashrc 文件】如何编辑
  • 计算机网络复习大纲
  • 二叉树的基本概念(下)
  • 技术成神之路:设计模式(十五)中介者模式
  • VulnHub-Bilu_b0x靶机笔记
  • 大数据新视界 --大数据大厂之HBase 在大数据存储中的应用与表结构设计
  • K8S精进之路-控制器StatefulSet有状态控制 -(2)
  • qmt量化交易策略小白学习笔记第67期【qmt编程之获取ETF申赎清单】
  • 封装一个vue3的文件上传组件(拖拽或点击选择文件)
  • C++ | Leetcode C++题解之第437题路径总和III
  • react + antDesign封装图片预览组件(支持多张图片)