pandas 数据分析流程
Pandas是一个强大的Python数据分析库,提供了丰富的数据操作功能,非常适合用于数据分析。以下是一个典型的Pandas数据分析流程,包括数据准备、导入、清洗、统计分析和结果展示。
一、数据准备
首先,我们需要准备或创建一个数据文件,可以是CSV格式、JSON格式或其他格式。例如,我们可以创建一个CSV格式的销售数据文件和一个JSON格式的客户数据文件。
sales_data = """
date,product,price,quantity,region
2024-01-01,a,100,5,north
2024-01-02,b,200,,south
2024-01-03,a,100,3,east
2024-01-04,c,300,4,west
2024-01-05,b,200,2,north
"""
customer_data = """
{
"customers": [
{"id": 1, "name": "张三", "region": "north"},
{"id": 2, "name": "李四", "region": "south"}
]
}
"""
with open('sales.csv', 'w') as f:
f.write(sales_data)
with open('customers.json', 'w') as f:
f.write(customer_data)
二、数据导入
使用Pandas的read_csv()
和read_json()
函数导入数据。
import pandas as pd
df_sales = pd.read_csv('sales.csv')
df_customers = pd.read_json('customers.json')
三、数据清洗
数据清洗是数据分析中非常重要的一步,包括处理缺失值、删除无效数据、排序、数据转换等。
- 处理缺失值:例如,使用
fillna(0)
方法将缺失值填充为0。 - 删除无效数据:使用
dropna(how='all')
删除全为空的行。 - 数据排序:使用
sort_values('price')
按价格排序。 - 数据转换:计算总额列。
四、数据统计分析
使用Pandas提供的函数进行统计分析,如describe()
、mean()
、max()
等。
- 查看数据概览:使用
head()
方法。 - 基础统计:使用
describe()
方法。 - 详细统计:计算平均价格、总销量等。
五、结果展示
使用matplotlib等库绘制图表,帮助理解数据。
import matplotlib.pyplot as plt
plt.plot(df_sales['date'], df_sales['close'])
plt.title('stock closing price trend')
plt.xlabel('date')
plt.ylabel('closing price')
plt.show()
通过以上步骤,你可以完成一个基本的Pandas数据分析流程。这个过程可以根据具体的数据分析需求进行调整和扩展。