当前位置：首页 > article >正文

Pandas01

article 2025/2/28 20:00:32

文章目录

- 内容简介
- 1 常用数据分析三方库
- 2 Jupyter notebook
- 3 Series的创建
- - 3.1 通过Numpy的Ndarray 创建一个Series
  - 3.2 通过列表创建Series
- 4 Series的属性和方法
- - 4.1 常用属性
  - 4.2 常用方法
  - 4.3 布尔值列表筛选部分数据
  - 4.4 Series 的运算
- 5 DataFrame的创建
- - 通过字典创建
  - 通过列表[元组] 列表[列表] 方式创建
- 6 DataFrame的属性和方法
- - 6.1 常用属性
  - 6.2 常用方法
  - 6.3 布尔索引. 条件取值
  - 6.4 两个DF之间进行计算

内容简介

Pandas

环境搭建起来 Anaconda
Series
DataFrame
增加删除修改查询数据
修改表结构常用的方法
日期时间类型, 分组聚合, 表连接
数据可视化
- 直方图折线图柱状图散点图饼图箱线图热力图…

业务

常见指标
数据分析工作基本技能
- 取数, 做报表
- 专题/专项分析
  - 数据分析的思维分群, 下钻, 漏斗…
  - 数据分析模型规则模型
- 指标异常波动分析
- 报告能力
- AB测试 (中大公司)

1 常用数据分析三方库

Pandas

底层调用Numpy Numpy是一个高效的科学计算库 , 基本的数据结构是 ndarray (N维数组)
- Pandas 给numpy的Ndarray 添加行列名字, 具体的计算还是调用Numpy来实现的
重要对象
- Series 一列数据
- DataFrame 二维表格

MatPlotLib (静态绘图 jpg, png svg)

Python 数据可视化的三方库
Pandas的数据可视化功能就是调用的MatPlotLib
Seaborn 基于MatPlotLib

基于JS 的绘图库 (html 页面上展示)

pyecharts

2 Jupyter notebook

Anaconda的安装

安装好之后, 可能会遇见的问题

bad file descriptor
pip uninstall pyzmq
pip install pyzmq -i https://pypi.tuna.tsinghua.edu.cn/simple/

Anaconda 是 python的发型版是数据科学用到的三方库的集合

安装好了之后, 默认会有一个base的虚拟环境在base 环境里装了数据科学相关的三方库
集成了conda这个包管理器, 在anaconda的环境下, 也可以通过conda install XXXX 来安装三方库
conda 也可以管理虚拟环境
- 为什么要有虚拟环境
  - Python库如果版本更新了, 一些老的方法可能会被删除
  - 举例 Pandas 升级到了2.X版本, 我想用2.x版本的新功能, 项目是在1.5.3 环境下开发的

Pycharm下运行notebook

项目创建好之后, 修改解释器

在这里插入图片描述

添加本地解释器

在这里插入图片描述

选择conda解释器

在这里插入图片描述

设置好解释器之后, 可以直接右键单击项目,新建文件

在这里插入图片描述

Jupyter notebook 常用快捷键

命令模式和编辑模式之间的切换 ESC
命令模式下
- dd 删除cell
- b 在当前cell下面添加一个cell
- a 在当前cell上面添加一个cell
- ctr + 回车 / shift+ 回车运行一个cell
- m 切换到markdown 模式 y 切换到代码模式

3 Series的创建

3.1 通过Numpy的Ndarray 创建一个Series

n1 = np.array([1,2,3])
type(n1)
# 创建一个Series对象
s =pd.Series(n1)
type(s)

# 我们在创建Series的时候, 如果不指定索引, Pandas也会自动帮助我们添加一个索引
# 默认加的索引是从0开始的整数  RangeIndex
s.index

3.2 通过列表创建Series

s1 = pd.Series(n1,index=['a','b','c'])
s1.index

s3 = pd.Series(['香蕉','apple',2],index=[1,2,3])
#%%
s3.index
#%%
data_dict = {'Age':18,'Name':'Tom','Job':'大数据工程师'}
s4 = pd.Series(data_dict)
#%%
s4.values

index 索引

values 值

4 Series的属性和方法

4.1 常用属性

index : 索引

values: 值

shape: 形状返回一个元组 (行数,)

size: 返回整数有多少个值

dtypes/dtype 数据类型

4.2 常用方法

访问前5条数据/后五条数据

s.head()
s.tail()

Series转换成列表和DataFrame

s1.tolist()
s1.to_list()
# s对象转换成df对象
s1.to_frame()

s对象最大值、最小值、平均值、求和值

# s对象最大值、最小值、平均值、求和值
s1.max()
s1.min()
s1.mean()
s1.sum()

describe()方法, 一次性返回多个统计量

count() 计数
mean() 求平均
std() 求标准差标准差反应数据的离散程度
- 方差 = ∑(每一个值 - 平均值)²/总数
- 标准差 = 方差开根号
min()
quantile()
- 计算分位数
- 1/4 分位数把数据从小到大排序, 排在25% 那个位置的数就是25%分位数
- 中位数: 把数据从小到大排序, 排在正中间的那个数就是中位数
- 3/4 分位数把数据从小到大排序, 排在75% 那个位置的数就是75%分位数
max()

去重/排序/返回唯一值

drop_duplicates()
- inplace 默认值 False 不会在原来的数据上修改, 而是在一个副本上修改, 并把修改之后的副本返回
- inplace = True 直接修改原始的数据方法不会有返回值
sort_values() 值排序 ascending = True 升序(默认值) False降序
sort_index() 索引排序
unique() / nunique()
- 返回ndarray 由唯一值组成
- nunique 返回唯一值数量

4.3 布尔值列表筛选部分数据

想通过某个条件在Series选出满足条件的部分数据, 可以使用布尔索引(布尔值列表/布尔值的Sereis)

df = pd.read_csv('C:/Develop/深圳42/data/scientists.csv')

从数据中筛选出年龄大于平均值的科学家的名字

df['Name'][df['Age']>df['Age'].mean()]

df[‘Age’]>df[‘Age’].mean() 会返回由True和False组成的布尔值的Series

把它通过[] 丢进来, 可以做数据的过滤

True对应数据行会被保留, False对应的数据行会被删除

这里也可以传一个和Series长度一致的boolean的list

多个条件的连接职业是化学家, 并且年龄大于平均年龄

df['Name'][(df['Age']>df['Age'].mean()) & (df['Occupation']=='Chemist')]

两个boolean 值组成的series 做与或者或的运算需要用& | 符号不能用 and or

& | 是按位运算, 会把两个series中每一行做对应的与或计算

and or 只能是做一个True /False 和另一个 True /False 的计算 ,如果遇见了下面的报错, 要知道是什么原因

4.4 Series 的运算

Series 和一个数值/字符串进行计算

每一个元素都会跟这个数值/字符串进行计算
这一点和Python的列表不一样, Python的列表想要实现相同的效果必须需要遍历

两个Series之间进行计算

按照 index (行索引) 进行对齐
两个Series index相同的行会在一起进行计算
不同的会返回NaN (空值)

5 DataFrame的创建

通过字典创建

dict_data = {'id':[1,2,3],'name':['张三','李四','Apple'],'age':[21,22,23]}
df = pd.DataFrame(dict_data,columns=['id','age','name'],index=['a','b','c'])
df

通过列表[元组] 列表[列表] 方式创建

list_data =[
    (1,'张三',21),
    (2,'李四',22),
    (3,'王五',23)
            ]
df = pd.DataFrame(list_data,columns=['id','age','name'])
df

6 DataFrame的属性和方法

6.1 常用属性

df.index

df.columns # 列名列索引

df.values # 值返回的类型 ndarray

df.shape # (行数,列数) df.shape[0]

6.2 常用方法

加载数据之后的了解,认识数据的常规套路

df.head() # 看一眼数据长什么样

df.info() # 数据类型, 有没有空值

df.describe() # 看数据的分布情况, 和业务常识是否一致

df.sort_values( by = 列名) # 按照某一列排序

6.3 布尔索引. 条件取值

和Series的布尔值列表取值用法完全一致

6.4 两个DF之间进行计算

DF和某个具体的值(字符串, 数字 )进行计算

每个元素都会跟这个值之间进行计算

两个Df之间进行计算和Series算法一样

使用行名字进行对齐

若有错误与不足请指出，关注DPT一起进步吧！！！

查看全文

http://www.kler.cn/a/456371.html

C++ 并发专题 - 实现一个线程安全的队列

4.基于 Couchbase 构建数据仓库的元数据管理方案

【C语言程序设计——循环程序设计】利用循环求数值 x 的平方根（头歌实践教学平台习题）【合集】

钉钉机器人发送excel表（简易版）

使用ArcGIS/ArcGIS pro绘制六边形/三角形/菱形渔网图

vim文本编辑器常用命令和快捷键

Modern C++ std::atomic简介

neo4j无法导入csv文件

渗透测试入门DVWA 教程1：环境搭建

【WRF模拟】最高/最低日气温偏高/偏低的参数调整

【Android】application@label 属性属性冲突报错

潇洒郎：部署Dify, 安装Ollama，Ollama下载模型，Dify配置模型

JavaScript甘特图 dhtmlx-gantt

面试场景题系列：设计URL短链

深度学习中的参数初始化

Anaconda 安装与虚拟环境创建完整指南

jetbrains HTTPS 请求与响应流量分析报告【二】

C语言实践中的补充知识 Ⅶ

在国产电脑上运行PDFSAM软件使用pdf分割合并交替混合处理pdf文档

基于 Vant UI + Redisson BitSet 实现签到日历

文章目录

内容简介

1 常用数据分析三方库

2 Jupyter notebook

3 Series的创建

3.1 通过Numpy的Ndarray 创建一个Series

3.2 通过列表创建Series

4 Series的属性和方法

4.1 常用属性

4.2 常用方法

4.3 布尔值列表筛选部分数据

4.4 Series 的运算

5 DataFrame的创建

通过字典创建

通过列表[元组] 列表[列表] 方式创建

6 DataFrame的属性和方法

6.1 常用属性

6.2 常用方法

6.3 布尔索引. 条件取值

6.4 两个DF之间进行计算

相关文章：