当前位置: 首页 > article >正文

pandas——DataFrame

一、dataframe

(一)创建dataframe

file.csv 

Name,Age,City
Alice,30,New York
Bob,25,Los Angeles
Charlie,35,Chicago
import pandas as pd

'''
1.使用字典创建DataFrame:
其中字典的键是列名,值是数据列表。
'''
print('================1.使用字典创建DataFrame====================')
data = {
    'Column1': [1, 2, 3],
    'Column2': ['A', 'B', 'C']
}
df = pd.DataFrame(data)
print(df)
'''
2.使用列表的列表创建DataFrame:
如果有多个列表,每个列表代表一列的数据,你可以将它们作为列表的列表传递给DataFrame。
'''
data1 = [
    [1, 'A'],
    [2, 'B'],
    [3, 'C']
]
print('================使用列表的列表创建DataFrame====================')
df1 = pd.DataFrame(data1, columns=['Column1', 'Column2'])
print(df1)
'''
3.指定索引:
在创建DataFrame时,你可以指定行索引。
'''
print('================3.指定索引====================')
data2 = {
    'Column1': [1, 2, 3],
    'Column2': ['A', 'B', 'C']
}
index = ['row1', 'row2', 'row3']
df2 = pd.DataFrame(data, index=index)
print(df2)
'''
4.使用read函数:
pandas提供了多种read_*函数来从不同的数据源读取数据并创建DataFrame,例如read_csv、read_excel、read_sql等。
'''
print('================4.使用read函数====================')
df = pd.read_csv('file.csv')
print(df)
'''
5.DataFrame的列操作:
创建DataFrame后,你可以添加、删除或修改列。
'''
print('================5.DataFrame的列操作====================')
df['gender'] = ['女', '男', '女']  # 添加新列
print(df)
print()
df.drop('gender', axis=1, inplace=True)  # 删除列
print(df)
'''
6.DataFrame的行操作:
你可以添加、删除或修改行。
'''
print('================6.DataFrame的行操作====================')
df1.loc[3] = [4, 'D']  # 添加新行
print(df1)
df1.drop(0,inplace=True)  # 删除第一行
print(df1)
'''
7.查看DataFrame信息:
使用df.head()、df.tail()、df.info()等函数来查看DataFrame的内容和结构。
'''
print('================7.查看DataFrame信息====================')
print(df.head(2))
print(df.tail(1))
print(df.info)
'''
8.DataFrame的保存:
你可以将DataFrame保存到不同的文件格式中,如CSV、Excel等。
'''
print('================8.DataFrame的保存====================')
df1.to_csv('file1.csv', index=False)

 

生成的file1.csv 

Column1,Column2
2,B
3,C
4,D

(二)dataframe—索引

import pandas as pd

'''
1.默认索引:
当你创建一个DataFrame而没有指定索引时,pandas会自动创建一个从0开始的整数索引。
'''
print('1.默认索引:')
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
print(df.index)  # 输出:RangeIndex(start=0, stop=3, step=1)
'''
2.命名索引:
你可以给索引命名,使其更有意义。
'''
print('2.命名索引:')
df.index.name = 'RowID'
print(df)
'''
3.设置索引:
在创建DataFrame时,可以通过index参数来设置索引。
'''
print('3.设置索引:')
df1 = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]}, index=['a', 'b', 'c'])
print(df1)
'''
4.重置索引:
如果索引变得不连续或你想要将其重置为默认的整数索引,可以使用reset_index()方法。
'''
print('4.重置索引:')
df.reset_index(drop=True, inplace=True)
# print(df)
'''
5.多重索引(MultiIndex):
DataFrame可以有多个索引级别,这称为多重索引。
'''
print('5.多重索引(MultiIndex):')
arrays = [['bar', 'bar', 'baz', 'baz'],
          ['one', 'two', 'one', 'two']]
df2 = pd.DataFrame({'A': [1, 2, 3, 4]}, index=arrays)
print(df2)
'''
6.索引选择数据:
使用.loc[]和.iloc[]可以基于索引来选择数据。
'''
print('6.索引选择数据:')
# 使用标签选择数据
print(df1.loc['a'] ) # 选择索引为'a'的行
# 使用整数位置选择数据
print(df1.iloc[0])  # 选择第一行
'''
7.切片:
可以对索引进行切片操作,选择一部分数据。
'''
print('7.切片:')
print(df1.loc['a':'c'] ) # 选择索引从'a'到'c'的行

'''
8.索引的修改、删除:
'''
print('8.索引的修改、删除:')
df1.index = ['x', 'y', 'z']
print(df1)
# df1.drop('a')  # 删除索引为'a'的行
# print(df1)
'''
9.索引的排序:
可以使用sort_index()方法对索引进行排序。
'''
print('9.索引的排序:')
df1.sort_index()
print(df1)

 

(三)dataframe—切片

import pandas as pd

# 创建一个示例DataFrame
data = {
    'Name': ['John', 'Anna', 'Pingping', 'Linda', 'Chris'],
    'Age': [28, 24, 35, 32, 29],
    'City': ['New York', 'Paris', 'China', 'London', 'Madrid']
}
df = pd.DataFrame(data)
'''
1.基本切片:
使用.loc[]和.iloc[]可以基于标签和位置进行切片。
'''
print('1.基本切片:')
# 基于标签的切片
# df.loc['row_label':'row_label']
# 选择Name为'John'的行中Age列的数据
print(df.loc[0, 'Age'])
# 基于位置的切片
# df.iloc[0:3]
print(df.iloc[0:3])
#选择前3行的数据:
print(df.head(3))
'''
2.列切片:
使用列名或列索引可以对DataFrame的列进行切片。
'''
print('2.列切片:')
# 使用列名切片
# df[['Column1', 'Column2']]  # 选择Column1和Column2列
print(df[['Name','City']])
# 使用列索引切片
# df.iloc[:, 0:3]  # 选择前3列
print(df.iloc[:, 0:3] )
'''
3.行和列切片:
可以同时对行和列进行切片。
'''
print('3.行和列切片:')
# df.loc[0:3, ['Column1', 'Column2']]  # 选择前4行的Column1和Column2列
# 选择前两行的Name和City列:
print(df.loc[0:1, ['Name', 'City']])
'''
4.使用.loc[]和.iloc[]:
.loc[]用于基于标签的索引,而.iloc[]用于基于整数位置的索引。
'''
print('4.使用.loc[]和.iloc[]:')
print(df.loc[0:3])# 选择第0行到第3行(不包括第3行)
print(df.iloc[0:3])  # 选择第0列到第2列(不包括第3列)
'''
5.使用条件表达式切片
选择年龄大于30岁的行:
'''
print('5.使用条件表达式切片')
print(df[df['Age'] > 30])
'''
6. 多重条件切片
选择年龄大于30岁且城市为Berlin的行:
'''
print('6. 多重条件切片')
print(df[(df['Age'] > 30) & (df['City'] == 'Berlin')])
'''
7.使用query方法
选择年龄大于25岁的行:
'''
print('7.使用query方法')
print(df.query('Age > 25'))

'''
8.使用eval方法
计算新的列AgeNextYear为年龄加1:
'''
print('8.使用eval方法')
print(df.eval('AgeNextYear = Age + 1'))

 

(四)dataframe—名字

import pandas as pd

# 创建一个DataFrame
df = pd.DataFrame({
    'Name': ['John', 'Anna', 'Peter', 'Linda'],
    'Age': [28, 24, 35, 32],
    'City': ['New York', 'Paris', 'Berlin', 'London']
})

'''
1. 设置DataFrame的索引名称
你可以为DataFrame的索引设置一个名称,这通常通过.index.name属性来完成。
'''
print('1. 设置DataFrame的索引名称')
# 设置索引名称
df.index.name = 'ID'
print(df)
'''
2.访问带有名称的索引
你可以通过索引名称来访问特定的行。
'''
print('2.访问带有名称的索引')
# 通过索引名称访问ID为1的行
print(df.loc[1])
# 使用列索引切片
# df.iloc[:, 0:3]  # 选择前3列
print(df.iloc[:, 0:3] )
'''
3.删除索引名称
如果你不再需要索引名称,可以通过将.index.name设置为None来删除它。
'''
print('3.删除索引名称')
df.index.name = None
print(df)
'''
4.使用索引名称进行条件筛选
你可以使用索引名称来筛选满足特定条件的行。
'''
print('4.使用索引名称进行条件筛选')
# 筛选年龄大于30岁的行
print(df[df['Age'] > 30])
'''
5.使用at和iat访问器
at和iat访问器允许你通过索引标签和列名来快速访问单个值。
'''
print('5.使用at和iat访问器')
# 使用at访问器
print(df.at[1, 'Name'])  # 输出:Anna

# 使用iat访问器
print(df.iat[2, 0])  # 输出:Peter
'''
6. 重置索引
如果你需要将索引标签转换为普通的列,可以使用reset_index()方法。
'''
print('6. 重置索引')
# 重置索引,将索引标签转换为列
df_reset = df.reset_index()
print(df_reset)
'''
7.设置多个索引名称
对于多重索引(MultiIndex),你可以为每个级别的索引设置名称。
'''
print('7.设置多个索引名称')
# 创建一个多重索引的DataFrame
index = pd.MultiIndex.from_tuples(
    [('John', 1), ('John', 2), ('Anna', 1), ('Anna', 2)],
    names=['Name', 'ID']
)
df_multi = pd.DataFrame({'Score': [85, 90, 88, 93]}, index=index)

print(df_multi)

 

(五)常见操作

import pandas as pd

# 创建一个DataFrame
data = {
    'Name': ['平平', 'Anna', '小王子', 'Linda'],
    'Age': [28, 24, 35, 32],
    'City': ['New York', 'Paris', 'Berlin', 'London']
}
df = pd.DataFrame(data)
print(df)

#1.选择数据
print('==========1.选择数据============')
# 选择行
# 选择第2行的数据
print(df.iloc[2])
# 选择列
# 选择'Name'列
print(df['Name'])
# 选择行和列
# 选择第1行和第2列的数据(即'Anna'的'City')
print(df.iloc[1, 2])
#2.添加和删除列
print('==========2.添加和删除列============')
# 添加列
# 添加新列'Country'
df['Country'] = 'USA'
print(df)
# 删除列
# 删除'Country'列
df.drop('Country', axis=1, inplace=True)
print(df)
#3.修改数据
print('==========3.修改数据============')
# 修改'Peter'的年龄为36
df.loc[df['Name'] == 'Peter', 'Age'] = 36
print(df)
#4.排序和筛选
print('==========4.排序和筛选============')
#排序
# 按'Age'列升序排序
df_sorted = df.sort_values(by='Age')
print(df_sorted)
#筛选
# 选择'City'为'Berlin'的行
berlin_residents = df[df['City'] == 'Berlin']
print(berlin_residents)
#5.聚合和描述统计
print('==========5.聚合和描述统计============')
#聚合
# 按'City'列对'Age'列求平均值
average_age = df.groupby('City')['Age'].mean()
print(average_age)
#述统计
# 获取'Age'列的描述统计信息
age_stats = df['Age'].describe()
print(age_stats)
# 6.合并和连接
print('==========6.合并和连接============')
# 横向合并
# 创建一个新的DataFrame
df2 = pd.DataFrame({
    'Name': ['Chris', 'Diana'],
    'Age': [29, 27],
    'City': ['Madrid', 'Rome']
})

# 横向合并df和df2
df_concatenated = pd.concat([df, df2])
print(df_concatenated)
# 纵向合并
# 创建一个新的DataFrame
df3 = pd.DataFrame({
    'Name': ['John', 'Anna'],
    'Department': ['HR', 'Finance']
})

# 纵向合并df和df3
df_merged = pd.merge(df, df3, on='Name')
print(df_merged)
#7.处理缺失数据
print('==========7.处理缺失数据============')
# 填充缺失值
# 假设我们有一些缺失数据
df_missing = pd.DataFrame({
    'Name': ['Eve', None],
    'Age': [25, 30]
})

# 填充缺失值
df_missing.fillna({'Name': 'Unknown'}, inplace=True)
print(df_missing)
# 删除缺失值
# 删除包含缺失值的行
df_dropped = df_missing.dropna()
print(df_dropped)


http://www.kler.cn/a/375120.html

相关文章:

  • HarmonyOS:UIAbility组件概述
  • 【视频】OpenCV:识别颜色、绘制轮廓
  • 【Leecode】Leecode刷题之路第37天之解数独
  • git入门教程10:git性能优化
  • wsl2.0(windows linux子系统)使用流程
  • oc的若干方法转为swift 请求不执行
  • 多模态大模型的应用探索:多样场景下的创新实践
  • sql练习专场(一) 1-5
  • Linux·进程间通讯(管道)
  • python/Django创建应用(app)
  • 逗号运算符应用举例
  • SpringBoot国际化:创建多语言支持的Web应用
  • 【K倍区间】
  • 笔记-配置PyTorch(CUDA 12.2)
  • 常用linux 命令备份
  • 【网络安全 | 漏洞挖掘】逻辑漏洞+无限制爆破实现业务瘫痪
  • 【Linux网络】传输层协议UDP与TCP
  • Python画图3个小案例之“一起看流星雨”、“爱心跳动”、“烟花绚丽”
  • ubuntu上申请Let‘s Encrypt HTTPS 证书
  • 代理模式简单举例
  • Spring Boot框架下校园社团信息管理的优化策略
  • 独立北斗定位智能安全帽、定位安全帽、单北斗执法记录仪
  • 使用 Qt GRPC 构建高效的 Trojan-Go 客户端:详细指南
  • 抽丝剥茧 分布式服务框架设计 实战落地篇
  • Spring AOP(定义、使用场景、用法、3种事务、事务失效场景及解决办法、面试题)
  • Spring beanFactoryPostProcessor