当前位置: 首页 > article >正文

Pandas常用操作记录(更新中)

1.读取文件

import pandas as pd
df =  pd.read_csv('路径')
#pd.read_文件格式('路径')

2.读取某列某行,并使用map替换

2.1 直接读取某列数据

        在获取到df对象后,可以使用 df.列名  来获取该列数据,

import pandas as pd
df = pd.read_csv(r'data/winequality-red.csv')
print(df.quality)
#print(df.loc[:,'quality'])  #这是使用loc函数的方式

2.2使用loc函数读取

当然,我们可以更加优雅一点,使用loc函数来进行行、列、区域的数据的获取。

loc方法是通过行、列的名称或者标签来寻找我们需要的值。

2.2.1读取某行所有数据(检索是行数,注意这里的行数是行序列号,从0开始

#获取第一行的所有数据
print(df.loc[1,:])

2.2.2读取某列全部数据(检索是列名)

#获取quality一列的全部数据
print(df.loc[:,'quality'] )

2.2.3读取某列的部分行数据(注意这里的行数是行序列号,从0开始)

#获取quality一列的2-5行的数据,注意,这是一个闭区间
df.loc[2:5,'quality']

2.2.4读取某区块的数据

#获取从'sulphates'到'quality'列2-5行的数据
print(df.loc[2:5,'sulphates':'quality'])

2.3使用iloc函数进行读取

iloc方法是通过索引行、列的索引位置[index, columns]来寻找值

具体方法类似loc函数,这里简单展示(注意此处索引都是从0开始计算

#获取第二行的数据
print(df.iloc[1])
#读取第三列数据
print(df.iloc[:,2])

3.使用map函数使用字典映射列数据

        在机器学习中,我们往往会需要对csv文件的一些列数据进行独热编码,使用pandas自带的map函数来进行替换也是一种比较简单快速的编码方式。(注意map函数需要自提供映射字典,常用于类别较少的情况)

import pandas as pd
df = pd.read_csv(r'data/winequality-red.csv')
print(df)
quality_map = {
    3:0,
    4:1,
    5:2,
    6:3,
    7:4,
    8:5
}
df.loc[:,'quality'] = df.quality.map(quality_map)
print(df)

函数比较简单:df.map(字典对象),效果见下图


http://www.kler.cn/a/230119.html

相关文章:

  • Python入门教程 —— 网络编程
  • uniapp获取安卓与ios的唯一标识
  • 中国科技统计年鉴EXCEL版(2021-2023年)-社科数据
  • Flask返回浏览器无乱码方法
  • IDEA 字符串拼接符号“+”位于下一行的前面,而不是当前行的末尾
  • PostgreSQL学习笔记(二):PostgreSQL基本操作
  • 74HC154D-LED
  • Swift Combine 从入门到精通一
  • Python数据可视化库之mplfinance使用详解
  • android开发中遇到的问题和注意点
  • 陶哲轩如何用 GPT-4 辅助数学研究
  • 在Python中执行Linux Shell脚本详解
  • BLEUScore AttributeError: ‘list‘ object has no attribute ‘split‘——问题解决
  • LRU缓存
  • MySQL 表的设计
  • Android13多媒体框架概览
  • 三维天地为生物制药研发实验室物料平衡管理提供有力支持
  • 百度PaddleOCR字符识别推理部署(C++)
  • 备战蓝桥杯---搜索(剪枝)
  • sqli.bypass靶场本地小皮环境(1-5关)
  • Linux定时器
  • 决策树之scikit-learn
  • 华为机考入门python3--(9)牛客9-提取不重复的整数
  • 二层交换机配置以太网通道
  • react+antd+CheckableTag实现Tag标签单选或多选功能
  • 详细了解ref和reactive.