当前位置：首页 > article >正文

pandas的用法

article 2024/10/10 0:09:04

1.简介：

pandas是一个开源的python数据分析库提供了快速，灵活和表达力强的数据结构，使数据清洗和分析工作变得更加简单易行。pandas的核心数据结构是DataFrame和Series

2.DataFrame的基本操作：

DataFrame是pandas库中的一个二维标签化数据结构，DataFrame中的每一列都可以看作是一个Series

import pandas as pd
import numpy as np
#创建了一个从2021年1月开始的30个月的日期范围的pandas DatetimeIndex
#pd.date_range函数是生成日期序列的常用方法
#periods = 30表示生成30个日期
#freq = "M"表示每个月
dates = pd.date_range("20210101",periods=30,freq="M")

输出结果为：

DatetimeIndex(['2021-01-31', '2021-02-28', '2021-03-31', '2021-04-30',
'2021-05-31', '2021-06-30', '2021-07-31', '2021-08-31',
'2021-09-30', '2021-10-31', '2021-11-30', '2021-12-31',
'2022-01-31', '2022-02-28', '2022-03-31', '2022-04-30',
'2022-05-31', '2022-06-30', '2022-07-31', '2022-08-31',
'2022-09-30', '2022-10-31', '2022-11-30', '2022-12-31',
'2023-01-31', '2023-02-28', '2023-03-31', '2023-04-30',
'2023-05-31', '2023-06-30'],
dtype='datetime64[ns]', freq='M')

import pandas as pd
import numpy as np
dates = pd.date_range('20210101',periods=30,freq='M')
#index = dates 索引值为datas中的日期
date = pd.DataFrame(np.random.rand(30,3),columns=list('ABC'),index=dates)

此代码创建了一个包含30行3列的DataFrame，其中索引是之前生成的日期范围，列名是"A","B","C"。

3.plot快速可视化

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

df = np.random.randn(1000)
df = pd.DataFrame(df,index=pd.date_range('20210101',periods=1000))
print(df)
df.plot()
plt.show()

此代码生成了一个包含1000个随机数的单变量数据集,并使用pd.date_range为每个数据点创建了日期索引，然后，将这个numpy数组转化为pandas DataFrame,并使用pandas绘图功能。

输出结果为：

4.io读取与存储

(1):csv

import pandas as pd
import numpy as np

data = pd.DataFrame(np.random.randn(1000,3),
                    columns = ['a','b','c'],
                    index = pd.date_range('20210101',periods = 1000))
data.index.names = ['date']
data.to_csv('txt.csv')
data1 = pd.read_csv('txt.csv')
print(data1)

在同级目录中把数据保存在以csv格式的文件中

(2):excel

import pandas as pd
import numpy as np

data = pd.DataFrame(np.random.randn(1000,3),
                    columns = ['a','b','c'],
                    index = pd.date_range('20210101',periods = 1000))
data.to_excel('excel.xlsx',sheet_name='a')

将数据存储在同级目录中的Excel文件中，若想追加新的sheet页，

import pandas as pd
import numpy as np
data = pd.DataFrame(np.random.randn(1000,3),
                    columns = ['a','b','c'],
                    index = pd.date_range('20210101',periods = 1000))
data.to_excel('excel.xlsx',sheet_name='a')
with pd.ExcelWriter('writerExcel.xlsx',mode='a',engine='openpyxl') as writer:
    data.to_excel(writer,sheet_name='d')

查看全文

http://www.kler.cn/news/340490.html