pandas——DataFrame
一、dataframe
(一)创建dataframe
file.csv
Name,Age,City Alice,30,New York Bob,25,Los Angeles Charlie,35,Chicago
import pandas as pd
'''
1.使用字典创建DataFrame:
其中字典的键是列名,值是数据列表。
'''
print('================1.使用字典创建DataFrame====================')
data = {
'Column1': [1, 2, 3],
'Column2': ['A', 'B', 'C']
}
df = pd.DataFrame(data)
print(df)
'''
2.使用列表的列表创建DataFrame:
如果有多个列表,每个列表代表一列的数据,你可以将它们作为列表的列表传递给DataFrame。
'''
data1 = [
[1, 'A'],
[2, 'B'],
[3, 'C']
]
print('================使用列表的列表创建DataFrame====================')
df1 = pd.DataFrame(data1, columns=['Column1', 'Column2'])
print(df1)
'''
3.指定索引:
在创建DataFrame时,你可以指定行索引。
'''
print('================3.指定索引====================')
data2 = {
'Column1': [1, 2, 3],
'Column2': ['A', 'B', 'C']
}
index = ['row1', 'row2', 'row3']
df2 = pd.DataFrame(data, index=index)
print(df2)
'''
4.使用read函数:
pandas提供了多种read_*函数来从不同的数据源读取数据并创建DataFrame,例如read_csv、read_excel、read_sql等。
'''
print('================4.使用read函数====================')
df = pd.read_csv('file.csv')
print(df)
'''
5.DataFrame的列操作:
创建DataFrame后,你可以添加、删除或修改列。
'''
print('================5.DataFrame的列操作====================')
df['gender'] = ['女', '男', '女'] # 添加新列
print(df)
print()
df.drop('gender', axis=1, inplace=True) # 删除列
print(df)
'''
6.DataFrame的行操作:
你可以添加、删除或修改行。
'''
print('================6.DataFrame的行操作====================')
df1.loc[3] = [4, 'D'] # 添加新行
print(df1)
df1.drop(0,inplace=True) # 删除第一行
print(df1)
'''
7.查看DataFrame信息:
使用df.head()、df.tail()、df.info()等函数来查看DataFrame的内容和结构。
'''
print('================7.查看DataFrame信息====================')
print(df.head(2))
print(df.tail(1))
print(df.info)
'''
8.DataFrame的保存:
你可以将DataFrame保存到不同的文件格式中,如CSV、Excel等。
'''
print('================8.DataFrame的保存====================')
df1.to_csv('file1.csv', index=False)
生成的file1.csv
Column1,Column2 2,B 3,C 4,D
(二)dataframe—索引
import pandas as pd
'''
1.默认索引:
当你创建一个DataFrame而没有指定索引时,pandas会自动创建一个从0开始的整数索引。
'''
print('1.默认索引:')
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
print(df.index) # 输出:RangeIndex(start=0, stop=3, step=1)
'''
2.命名索引:
你可以给索引命名,使其更有意义。
'''
print('2.命名索引:')
df.index.name = 'RowID'
print(df)
'''
3.设置索引:
在创建DataFrame时,可以通过index参数来设置索引。
'''
print('3.设置索引:')
df1 = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]}, index=['a', 'b', 'c'])
print(df1)
'''
4.重置索引:
如果索引变得不连续或你想要将其重置为默认的整数索引,可以使用reset_index()方法。
'''
print('4.重置索引:')
df.reset_index(drop=True, inplace=True)
# print(df)
'''
5.多重索引(MultiIndex):
DataFrame可以有多个索引级别,这称为多重索引。
'''
print('5.多重索引(MultiIndex):')
arrays = [['bar', 'bar', 'baz', 'baz'],
['one', 'two', 'one', 'two']]
df2 = pd.DataFrame({'A': [1, 2, 3, 4]}, index=arrays)
print(df2)
'''
6.索引选择数据:
使用.loc[]和.iloc[]可以基于索引来选择数据。
'''
print('6.索引选择数据:')
# 使用标签选择数据
print(df1.loc['a'] ) # 选择索引为'a'的行
# 使用整数位置选择数据
print(df1.iloc[0]) # 选择第一行
'''
7.切片:
可以对索引进行切片操作,选择一部分数据。
'''
print('7.切片:')
print(df1.loc['a':'c'] ) # 选择索引从'a'到'c'的行
'''
8.索引的修改、删除:
'''
print('8.索引的修改、删除:')
df1.index = ['x', 'y', 'z']
print(df1)
# df1.drop('a') # 删除索引为'a'的行
# print(df1)
'''
9.索引的排序:
可以使用sort_index()方法对索引进行排序。
'''
print('9.索引的排序:')
df1.sort_index()
print(df1)
(三)dataframe—切片
import pandas as pd
# 创建一个示例DataFrame
data = {
'Name': ['John', 'Anna', 'Pingping', 'Linda', 'Chris'],
'Age': [28, 24, 35, 32, 29],
'City': ['New York', 'Paris', 'China', 'London', 'Madrid']
}
df = pd.DataFrame(data)
'''
1.基本切片:
使用.loc[]和.iloc[]可以基于标签和位置进行切片。
'''
print('1.基本切片:')
# 基于标签的切片
# df.loc['row_label':'row_label']
# 选择Name为'John'的行中Age列的数据
print(df.loc[0, 'Age'])
# 基于位置的切片
# df.iloc[0:3]
print(df.iloc[0:3])
#选择前3行的数据:
print(df.head(3))
'''
2.列切片:
使用列名或列索引可以对DataFrame的列进行切片。
'''
print('2.列切片:')
# 使用列名切片
# df[['Column1', 'Column2']] # 选择Column1和Column2列
print(df[['Name','City']])
# 使用列索引切片
# df.iloc[:, 0:3] # 选择前3列
print(df.iloc[:, 0:3] )
'''
3.行和列切片:
可以同时对行和列进行切片。
'''
print('3.行和列切片:')
# df.loc[0:3, ['Column1', 'Column2']] # 选择前4行的Column1和Column2列
# 选择前两行的Name和City列:
print(df.loc[0:1, ['Name', 'City']])
'''
4.使用.loc[]和.iloc[]:
.loc[]用于基于标签的索引,而.iloc[]用于基于整数位置的索引。
'''
print('4.使用.loc[]和.iloc[]:')
print(df.loc[0:3])# 选择第0行到第3行(不包括第3行)
print(df.iloc[0:3]) # 选择第0列到第2列(不包括第3列)
'''
5.使用条件表达式切片
选择年龄大于30岁的行:
'''
print('5.使用条件表达式切片')
print(df[df['Age'] > 30])
'''
6. 多重条件切片
选择年龄大于30岁且城市为Berlin的行:
'''
print('6. 多重条件切片')
print(df[(df['Age'] > 30) & (df['City'] == 'Berlin')])
'''
7.使用query方法
选择年龄大于25岁的行:
'''
print('7.使用query方法')
print(df.query('Age > 25'))
'''
8.使用eval方法
计算新的列AgeNextYear为年龄加1:
'''
print('8.使用eval方法')
print(df.eval('AgeNextYear = Age + 1'))
(四)dataframe—名字
import pandas as pd
# 创建一个DataFrame
df = pd.DataFrame({
'Name': ['John', 'Anna', 'Peter', 'Linda'],
'Age': [28, 24, 35, 32],
'City': ['New York', 'Paris', 'Berlin', 'London']
})
'''
1. 设置DataFrame的索引名称
你可以为DataFrame的索引设置一个名称,这通常通过.index.name属性来完成。
'''
print('1. 设置DataFrame的索引名称')
# 设置索引名称
df.index.name = 'ID'
print(df)
'''
2.访问带有名称的索引
你可以通过索引名称来访问特定的行。
'''
print('2.访问带有名称的索引')
# 通过索引名称访问ID为1的行
print(df.loc[1])
# 使用列索引切片
# df.iloc[:, 0:3] # 选择前3列
print(df.iloc[:, 0:3] )
'''
3.删除索引名称
如果你不再需要索引名称,可以通过将.index.name设置为None来删除它。
'''
print('3.删除索引名称')
df.index.name = None
print(df)
'''
4.使用索引名称进行条件筛选
你可以使用索引名称来筛选满足特定条件的行。
'''
print('4.使用索引名称进行条件筛选')
# 筛选年龄大于30岁的行
print(df[df['Age'] > 30])
'''
5.使用at和iat访问器
at和iat访问器允许你通过索引标签和列名来快速访问单个值。
'''
print('5.使用at和iat访问器')
# 使用at访问器
print(df.at[1, 'Name']) # 输出:Anna
# 使用iat访问器
print(df.iat[2, 0]) # 输出:Peter
'''
6. 重置索引
如果你需要将索引标签转换为普通的列,可以使用reset_index()方法。
'''
print('6. 重置索引')
# 重置索引,将索引标签转换为列
df_reset = df.reset_index()
print(df_reset)
'''
7.设置多个索引名称
对于多重索引(MultiIndex),你可以为每个级别的索引设置名称。
'''
print('7.设置多个索引名称')
# 创建一个多重索引的DataFrame
index = pd.MultiIndex.from_tuples(
[('John', 1), ('John', 2), ('Anna', 1), ('Anna', 2)],
names=['Name', 'ID']
)
df_multi = pd.DataFrame({'Score': [85, 90, 88, 93]}, index=index)
print(df_multi)
(五)常见操作
import pandas as pd
# 创建一个DataFrame
data = {
'Name': ['平平', 'Anna', '小王子', 'Linda'],
'Age': [28, 24, 35, 32],
'City': ['New York', 'Paris', 'Berlin', 'London']
}
df = pd.DataFrame(data)
print(df)
#1.选择数据
print('==========1.选择数据============')
# 选择行
# 选择第2行的数据
print(df.iloc[2])
# 选择列
# 选择'Name'列
print(df['Name'])
# 选择行和列
# 选择第1行和第2列的数据(即'Anna'的'City')
print(df.iloc[1, 2])
#2.添加和删除列
print('==========2.添加和删除列============')
# 添加列
# 添加新列'Country'
df['Country'] = 'USA'
print(df)
# 删除列
# 删除'Country'列
df.drop('Country', axis=1, inplace=True)
print(df)
#3.修改数据
print('==========3.修改数据============')
# 修改'Peter'的年龄为36
df.loc[df['Name'] == 'Peter', 'Age'] = 36
print(df)
#4.排序和筛选
print('==========4.排序和筛选============')
#排序
# 按'Age'列升序排序
df_sorted = df.sort_values(by='Age')
print(df_sorted)
#筛选
# 选择'City'为'Berlin'的行
berlin_residents = df[df['City'] == 'Berlin']
print(berlin_residents)
#5.聚合和描述统计
print('==========5.聚合和描述统计============')
#聚合
# 按'City'列对'Age'列求平均值
average_age = df.groupby('City')['Age'].mean()
print(average_age)
#述统计
# 获取'Age'列的描述统计信息
age_stats = df['Age'].describe()
print(age_stats)
# 6.合并和连接
print('==========6.合并和连接============')
# 横向合并
# 创建一个新的DataFrame
df2 = pd.DataFrame({
'Name': ['Chris', 'Diana'],
'Age': [29, 27],
'City': ['Madrid', 'Rome']
})
# 横向合并df和df2
df_concatenated = pd.concat([df, df2])
print(df_concatenated)
# 纵向合并
# 创建一个新的DataFrame
df3 = pd.DataFrame({
'Name': ['John', 'Anna'],
'Department': ['HR', 'Finance']
})
# 纵向合并df和df3
df_merged = pd.merge(df, df3, on='Name')
print(df_merged)
#7.处理缺失数据
print('==========7.处理缺失数据============')
# 填充缺失值
# 假设我们有一些缺失数据
df_missing = pd.DataFrame({
'Name': ['Eve', None],
'Age': [25, 30]
})
# 填充缺失值
df_missing.fillna({'Name': 'Unknown'}, inplace=True)
print(df_missing)
# 删除缺失值
# 删除包含缺失值的行
df_dropped = df_missing.dropna()
print(df_dropped)