当前位置: 首页 > article >正文

python中的NumPy和Pandas往往都是同时使用,NumPy和Pandas的在数据分析中的联合使用

在这里插入图片描述

文章目录

  • 前言
  • 一、numpy的介绍与用法
  • 二、pandas的介绍与用法
  • 三、numpy与pandas的联合使用说明
  • 四、numpy与pandas的联合使用程序代码
    • 4.1 读取CSV文件并进行数据清洗,如去除NaN值
    • 4.2 矩阵操作和特征工程,如标准化处理
    • 4.3 使用Pandas进行数据筛选和分组聚合,如计算每个人的总薪资
    • 4.4 使用NumPy进行数据重塑
    • 4.5 排序
    • 4.6 读取CSV文件并计算每列的平均值
  • 总结


前言

NumPy和Pandas是Python中两个非常重要的科学计算和数据处理库,它们可以互相配合使用,实现更高效的数据处理和分析。

一、numpy的介绍与用法

NumPy是一个用于数值计算的库,它提供了一个多维数组对象和一系列的函数,可以方便地进行数值计算、矩阵操作、数学变换等操作。以下是NumPy的一些常用功能:

创建多维数组:使用NumPy可以方便地创建二维、三维甚至更高维度的数组对象,并且可以对数组进行各种操作,如切片、索引、重塑等。

数学计算:NumPy提供了大量的数学函数,可以对数组进行各种计算,如加、减、乘、除、平方、开方等。

矩阵操作:NumPy可以方便地进行矩阵运算,如矩阵乘法、矩阵转置、矩阵求逆等。

数据处理:NumPy提供了很多数据处理函数,如求和、求平均值、求方差、排序等。

二、pandas的介绍与用法

Pandas是一个用于数据分析和处理的库,它提供了一种类似于SQL的查询语言和数据结构,可以方便地对数据进行筛选、排序、分组、聚合等操作。以下是Pandas的一些常用功能:

数据读取和导出:Pandas可以方便地从各种数据源中读取数据,如CSV文件、Excel文件、SQL数据库等,并且可以将数据导出为这些格式。

数据筛选:Pandas提供了类似于SQL的查询语言,可以方便地对数据进行筛选、过滤和排序。

数据聚合:Pandas可以将数据按照指定的列进行分组,并对每个组进行聚合操作,如求和、平均值、方差等。

数据转换:Pandas提供了很多数据转换函数,如重塑、合并、分割、映射等,可以方便地将数据进行转换和处理。

三、numpy与pandas的联合使用说明

NumPy和Pandas可以联合使用,实现更高效的数据处理和分析。

例如,可以使用NumPy创建多维数组并进行数学计算,然后将数组导入到Pandas中进行数据分析和处理

以下是一些NumPy和Pandas联合使用的例子

读取CSV文件并计算平均值:使用Pandas读取CSV文件,并使用NumPy计算每列的平均值。

矩阵乘法:使用NumPy进行矩阵乘法运算,并将结果导入到Pandas中进行数据处理。

数据重塑:使用NumPy创建多维数组并进行重塑操作,然后将结果导入到Pandas中进行数据分析和处理。

数据筛选和排序:使用Pandas对数据进行筛选和排序操作,并将结果导出到CSV文件中,然后使用NumPy读取CSV文件并进行数学计算。

数据聚合:使用Pandas将数据按照指定的列进行分组,并对每个组进行聚合操作,然后将结果导出到CSV文件中,最后使用NumPy读取CSV文件并进行数学计算。

数据转换:使用Pandas提供的数据转换函数对数据进行转换和处理,然后将结果导出到CSV文件中,最后使用NumPy读取CSV文件并进行数学计算。

随机数生成:使用NumPy生成随机数并进行数据处理,然后将结果导入到Pandas中进行可视化展示。

信号处理:使用NumPy进行信号处理操作,如傅里叶变换等,然后将结果导入到Pandas中进行数据处理和分析。

四、numpy与pandas的联合使用程序代码

4.1 读取CSV文件并进行数据清洗,如去除NaN值

import numpy as np  
import pandas as pd  
  
data = pd.read_csv('data.csv')  
clean_data = np.nan_to_num(data)  
print(clean_data)

4.2 矩阵操作和特征工程,如标准化处理

import numpy as np  
import pandas as pd  
from sklearn.preprocessing import StandardScaler  
  
data = pd.read_csv('data.csv')  
scaled_data = StandardScaler().fit_transform(data)  
print(scaled_data)

4.3 使用Pandas进行数据筛选和分组聚合,如计算每个人的总薪资

import numpy as np  
import pandas as pd  
  
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Alice', 'Bob'], 'Age': [25, 20, 30, 35, 40, 45], 'Salary': [50000, 60000, 70000, 80000, 90000, 100000]}  
df = pd.DataFrame(data)  

grouped_df = df.groupby('Name')['Salary'].sum()  
print(grouped_df)

4.4 使用NumPy进行数据重塑

import numpy as np  
import pandas as pd  
  
data = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])  
df = pd.DataFrame(data, columns=['A', 'B', 'C'])  
重塑_df = df.pivot(index='A', columns='B', values='C')  
print(重塑_df) 

4.5 排序

import numpy as np  
import pandas as pd  
  
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'], 'Age': [25, 20, 30, 35], 'Salary': [50000, 60000, 70000, 80000]}  
df = pd.DataFrame(data)  
排序_df = df.sort_values('Salary', ascending=False)  
print(排序_df)

4.6 读取CSV文件并计算每列的平均值

import numpy as np  
import pandas as pd  
  
data = pd.read_csv('data.csv')  
mean_values = np.mean(data, axis=0)  
print(mean_values)

总结

NumPy和Pandas联合使用可以实现更高效的数据处理和分析。NumPy提供了强大的数值计算功能,可以快速地进行矩阵计算和数学运算,而Pandas则提供了数据清洗和分析工具,可以方便地对数据进行筛选、排序、聚合等操作。


http://www.kler.cn/a/132543.html

相关文章:

  • 深度学习:计算卷积神经网络中输出特征图尺寸的关键公式
  • Datawhale组队学习】模型减肥秘籍:模型压缩技术3——模型量化
  • 【Nginx从入门到精通】03 、安装部署-让虚拟机可以联网
  • 能源革命持续发力,华普微隔离器助力储能行业“向绿向新”
  • Linux下编译MFEM
  • Python中的with语句
  • 基于SSM+Vue的校园共享单车管理系统
  • 【UE5】物体沿样条线移动
  • OSS服务和MinIO存储做一个区分解析
  • 车载开发岗位如何?Android程序员是否转行
  • 对话芯动科技 | 助力云游戏 4K级服务器显卡的探索与创新
  • canal1.1.7实战
  • Office Word 中的宏
  • C#WPF数据模板应用实例
  • 防止显卡掉卡的一种方法:nvidia-smi -pm 1
  • adb shell settings高级指令设置系统属性所有的指令汇总+注释
  • 盘点60个Python各行各业管理系统源码Python爱好者不容错过
  • Topaz Video AI:引领视频质量革命,让您的内容焕发新生
  • VSCode使用MinGW中的go并支持CGO
  • 多模态大一统:开启全模态LLM和通用AI时代的大门
  • Go 语言结构体验证详解:validate 标签与自定义规则
  • Bash openldap同步AD组织数据
  • HarmonyOS真机调试报错:INSTALL_PARSE_FAILED_USESDK_ERROR处理
  • bug-xss 攻击漏洞问题
  • 技术架构 - 应用数据分离,应用服务集群架构
  • asp.net core mvc 控制器使用配置