Python数据分析-Pandas快速入门
一、生成对象
data
:DataFrame 的数据部分,可以是字典、二维数组、Series、DataFrame 或其他可转换为 DataFrame 的对象。如果不提供此参数,则创建一个空的 DataFrame。index
:DataFrame 的行索引,用于标识每行数据。可以是列表、数组、索引对象等。如果不提供此参数,则创建一个默认的整数索引。columns
:DataFrame 的列索引,用于标识每列数据。可以是列表、数组、索引对象等。如果不提供此参数,则创建一个默认的整数索引。dtype
:指定 DataFrame 的数据类型。可以是 NumPy 的数据类型,例如np.int64
、np.float64
等。如果不提供此参数,则根据数据自动推断数据类型。copy
:是否复制数据。默认为 False,表示不复制数据。如果设置为 True,则复制输入的数据。
DataFrame 是 Pandas 中的另一个核心数据结构,用于表示二维表格型数据。
二.查看数据
三.排序
这个axis=1就是按照列来排序,ascending=false就是降序,=true就是升序
这个sort_values就是按照值来排序,b列
四.选择数据
4.1简单选择
4.2按标签选择
底下这个冒号表示所有行
4.3按位置选择
4.4筛选
把这个E列是two和four的筛选出来
五、赋值
Pandas Series 类似表格中的一个列(column),类似于一维数组,可以保存任何数据类型。
Series 的数据结构是非常有用的,因为它可以处理各种数据类型,同时保持了高效的数据操作能力。
data
:Series 的数据部分,可以是列表、数组、字典、标量值等。如果不提供此参数,则创建一个空的 Series。index
:Series 的索引部分,用于对数据进行标记。可以是列表、数组、索引对象等。如果不提供此参数,则创建一个默认的整数索引。dtype
:指定 Series 的数据类型。可以是 NumPy 的数据类型,例如np.int64
、np.float64
等。如果不提供此参数,则根据数据自动推断数据类型。name
:Series 的名称,用于标识 Series 对象。如果提供了此参数,则创建的 Series 对象将具有指定的名称。copy
:是否复制数据。默认为 False,表示不复制数据。如果设置为 True,则复制输入的数据。fastpath
:是否启用快速路径。默认为 False。启用快速路径可能会在某些情况下提高性能。
六、空值
把空值去掉dropna
给空值赋值fillna
判断有没有空值isna
七、运算
7.1算术运算
没有的地方就是nan
7.2比较操作
7.3统计
7.4合并concat
7.5连接join
这个on的话用key'这一列做关联
7.6追加 append
把第三行取出来追加到最后
7.7分组group
分组后求和
八、数据透视表
把c的值做列,把AB的值拿出来做行
九、时间序列
pd.date_range()
函数的基本用法是生成一个时间序列的日期范围。它接受起始日期、结束日期和频率等参数,并返回一个DatetimeIndex对象。
时区转换