当前位置: 首页 > article >正文

Python-Pandas

Pandas是一个开源的Python数据分析和数据处理库,它提供了大量的数据结构和数据分析工具,特别适合于处理表格数据。

安装

pip install pandas

在使用Pandas之前,需要首先导入Pandas模块。在Python程序中,可以使用import pandas as pd代码来导入Pandas。Pandas提供了两种主要的数据结构:Series和DataFrame。

Series:一维标记数组,类似于带索引的数组。

DataFrame:二维表格型数据结构,包含有序的列和索引。

数据读取和写入

Pandas可以读取和写入各种数据格式,包括CSV文件、Excel文件等。以下是一些常用的数据读取和写入方法:

读取CSV文件:使用pd.read_csv('filename.csv')方法读取CSV文件,其中'filename.csv'是文件的路径和名称。

写入CSV文件:使用DataFrame.to_csv('filename.csv', index=False)方法将数据写入CSV文件。其中index=False表示不写入行索引。

数据选择和操作

Pandas提供了丰富的方法来选择和操作数据,包括切片、过滤、排序等。以下是一些常用的数据选择和操作方法:

选择列:使用DataFrame['column_name']来选择DataFrame中的一列数据。

过滤数据:使用布尔索引来选择满足条件的数据。例如,DataFrame[DataFrame['column_name'] > value]会选择'column_name'列中值大于'value'的行。

排序数据:使用DataFrame.sort_values(by='column_name', ascending=True)方法对数据进行排序。其中by参数指定排序的列,ascending参数指定排序方式(True为升序,False为降序)。

数据统计和分析

Pandas还提供了数据统计和分析的功能,包括描述性统计、分组聚合等。以下是一些常用的数据统计和分析方法:

描述性统计:使用DataFrame.describe()方法生成描述性统计信息,包括均值、标准差、最小值、最大值等。

分组聚合:使用DataFrame.groupby('column_name').agg(function)方法对数据进行分组并应用聚合函数。其中groupby方法用于指定分组的列,agg方法用于指定聚合函数(如均值、求和等)。

 常用方法

pd.read_csv(filepath_or_buffer, sep=',', delimiter=None, ...):读取CSV文件。

pd.read_excel(io, sheet_name=0, header=0, ...):读取Excel文件。

DataFrame.to_csv(path_or_buf, sep=',', columns=None, ...):将数据写入CSV文件。

DataFrame.to_excel(excel_writer, sheet_name='Sheet1', index=True, ...):将数据写入Excel文件。

DataFrame.loc[row_labels, column_labels]:基于标签选择数据。

DataFrame.iloc[row_slicer, column_slicer]:基于位置选择数据。

DataFrame.drop(labels, axis=0, ...):删除行或列。

DataFrame.add(other, axis='columns', ...):加法操作。

DataFrame.sub(other, axis='columns', ...):减法操作。

DataFrame.mul(other, axis='columns', ...):乘法操作。

DataFrame.div(other, axis='columns', ...):除法操作。

DataFrame.describe(include='all', percentiles=None, ...):生成描述性统计信息。

DataFrame.groupby(by=None, axis=0, level=None, ...):对数据进行分组。

DataFrame.agg(func, axis='columns', *args, **kwargs):应用聚合函数。

DataFrame.mean(axis=None, skipna=None, numeric_only=None, ...):计算均值。

DataFrame.sum(axis=None, skipna=None, numeric_only=None, ...):计算总和。

DataFrame.info(verbose=None, null_counts=True, ...):输出DataFrame的基本信息。

DataFrame.head(n=5):返回前n行数据。

DataFrame.tail(n=5):返回后n行数据。

DataFrame.isnull():检查数据是否为空(NaN)。

DataFrame.dropna(axis=0, how='any', thresh=None, ...):删除包含空值的行或列。

DataFrame.fillna(value=None, method=None, axis=None, ...):填充空值。


http://www.kler.cn/news/341251.html

相关文章:

  • java算法OJ(2)链表
  • CUDA、Pytorch、Pycharm的安装与配置
  • 017 平台属性[属性分组、规格参数、销售属性]
  • Android 10.0 修改Systemui三键导航栏虚拟按键颜色功能实现
  • 链表Set_LinkList(并集)
  • 开源城市运动预约的工具类小程序源码
  • 【题目全解】ACGO排位赛#13
  • 电脑屏保设置教程 好看的电脑屏保应该怎么设置?
  • 夜间数据库IO负载飙升?MySQL批量删除操作引发的问题排查
  • 立志最细,FreeRtos中的信号量Semaphore教程详解!!!
  • Python 全栈开发从入门到实战进阶课程
  • AtCoder Beginner Contest 374 题A-D 详细题解(C++, Python)
  • 计算机视觉的应用36-人工智能时代计算机视觉技术在电力系统中的应用
  • Web Service Sender ParseError Invalid byte 1 of 1-byte UTF-8 sequence
  • 书籍第4章-SAP项目中的数据迁移
  • GO网络编程(六):海量用户通信系统4:读写数据包与登录消息处理
  • 运维问题0004:MM模块-操作MIGO过账报错“对象OFN_YR 2840 WE2840 的编码范围没有找到”
  • js 深入理解函数(二):扩展操作符、函数的内部对象、属性和方法
  • 【C/C++】错题记录(七)
  • 道可云入围2024元宇宙“数据要素”全国大赛