当前位置: 首页 > article >正文

pandas的用法

1.简介:

pandas是一个开源的python数据分析库提供了快速,灵活和表达力强的数据结构,使数据清洗和分析工作变得更加简单易行。pandas的核心数据结构是DataFrame和Series

2.DataFrame的基本操作:

DataFrame是pandas库中的一个二维标签化数据结构,DataFrame中的每一列都可以看作是一个Series

import pandas as pd
import numpy as np
#创建了一个从2021年1月开始的30个月的日期范围的pandas DatetimeIndex
#pd.date_range函数是生成日期序列的常用方法
#periods = 30表示生成30个日期
#freq = "M"表示每个月
dates = pd.date_range("20210101",periods=30,freq="M")



输出结果为:

DatetimeIndex(['2021-01-31', '2021-02-28', '2021-03-31', '2021-04-30',
               '2021-05-31', '2021-06-30', '2021-07-31', '2021-08-31',
               '2021-09-30', '2021-10-31', '2021-11-30', '2021-12-31',
               '2022-01-31', '2022-02-28', '2022-03-31', '2022-04-30',
               '2022-05-31', '2022-06-30', '2022-07-31', '2022-08-31',
               '2022-09-30', '2022-10-31', '2022-11-30', '2022-12-31',
               '2023-01-31', '2023-02-28', '2023-03-31', '2023-04-30',
               '2023-05-31', '2023-06-30'],
              dtype='datetime64[ns]', freq='M')

import pandas as pd
import numpy as np
dates = pd.date_range('20210101',periods=30,freq='M')
#index = dates 索引值为datas中的日期
date = pd.DataFrame(np.random.rand(30,3),columns=list('ABC'),index=dates)

此代码创建了一个包含30行3列的DataFrame,其中索引是之前生成的日期范围,列名是"A","B","C"。

3.plot快速可视化

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

df = np.random.randn(1000)
df = pd.DataFrame(df,index=pd.date_range('20210101',periods=1000))
print(df)
df.plot()
plt.show()

此代码生成了一个包含1000个随机数的单变量数据集,并使用pd.date_range为每个数据点创建了日期索引,然后,将这个numpy数组转化为pandas DataFrame,并使用pandas绘图功能。

输出结果为:

4.io读取与存储

(1):csv
import pandas as pd
import numpy as np

data = pd.DataFrame(np.random.randn(1000,3),
                    columns = ['a','b','c'],
                    index = pd.date_range('20210101',periods = 1000))
data.index.names = ['date']
data.to_csv('txt.csv')
data1 = pd.read_csv('txt.csv')
print(data1)

 在同级目录中把数据保存在以csv格式的文件中

(2):excel
import pandas as pd
import numpy as np

data = pd.DataFrame(np.random.randn(1000,3),
                    columns = ['a','b','c'],
                    index = pd.date_range('20210101',periods = 1000))
data.to_excel('excel.xlsx',sheet_name='a')

将数据存储在同级目录中的Excel文件中,若想追加新的sheet页,

import pandas as pd
import numpy as np
data = pd.DataFrame(np.random.randn(1000,3),
                    columns = ['a','b','c'],
                    index = pd.date_range('20210101',periods = 1000))
data.to_excel('excel.xlsx',sheet_name='a')
with pd.ExcelWriter('writerExcel.xlsx',mode='a',engine='openpyxl') as writer:
    data.to_excel(writer,sheet_name='d')


http://www.kler.cn/news/340490.html

相关文章:

  • Github界面学习
  • C++ 函数重载
  • 手动更换SSL证书教程及注意事项
  • 【论文阅读】AUTOREGRESSIVE ACTION SEQUENCE LEARNING FOR ROBOTIC MANIPULATION
  • 接着上一篇stp 实验继续
  • Http 协议和 RPC 协议有什么区别?
  • OpenAI .NET 库稳定版发布,支持 GPT-4o 并改进 API 功能
  • 逼近理论及应用精解【9】
  • 【优选算法】(第三十篇)
  • 详解JavaScript作为命名空间的函数
  • 腾讯云SDK项目管理
  • 图像数据增强库综述:10个强大图像增强工具对比与分析
  • Facebook 正式推出了一项专为 Z 世代设计的全新改版
  • webGL进阶(一)多重纹理效果
  • windows C++-避免死锁(上)
  • [JAVA]连接数据库 并在Java中实现查询员工信息功能
  • makefile的基本练习
  • AI+视频监控:EasyCVR安防平台赋能火电制造行业的视频智能管理方案
  • 统计学基础知识-我国行政架构!
  • ViT(Vision Transformer详解)