当前位置: 首页 > article >正文

深度学习—Pandas标签库基础

概述

numpy给了python列表矩阵运算的功能,pandas则是在此基础上添加了字典的功能,即给数据增加了,通过import pandas as pd导入使用,一维对象的创建使用sr=pd.Series()实现,函数内可以使用字典或值和键的列表创建,键缺省时默认为递增数组,该对象有valuesindex两个属性,可通过对象方法直接调用,简单示例展示如下:
一维对象创建
二维对象可使用多个一维的Series拼接,本质是列的组合,二者index不一致时会取交集,可能造成数据丢失,多个一维对象通过df=pd.DataFram({标签:Series})进行组合,也可以使用df=pd.DataFram(值,行标签,列标签),该对象有三个属性valuesindex和columns,生成简单示例展示如下:
二维对象生成示例
标签并不完全照搬字典的机制,最关键的就是不要求键唯一,标签中允许出现相同键,故可以使用index.unique判断是否有重复键,该二维矩阵在深度学习中,行为数据,列为特征

对象索引

由上面的概述知识,我们可以人为规定的元素的键,这称为显式索引,同时也有计算机自己使用的,单纯为递增数值的隐式索引,分别用索引器lociloc表示,我们访问元素时可以指定索引类型,再使用[键]的方式访问。

在标签中同样支持花式索引,和切片操作,区别是显式索引[起点:终点]切片时包含终点,而隐式不包含,二维数组中的索引器不可省,简单示例如下:
索引访问

对象变形

转置df.T

翻转
上下翻转df=df.iloc[ : , : : -1]
左右翻转df=df.iloc[ : , -1, : ]

重塑,因为标签的存在,reshape不再适用,只能提取其特定行组成新向量;

拼接,pd.concat(df1,df2,axis),其中axis指定为行或是列,行添加为增加数据个体,列添加为增加特征,一维二维合并只需使用df[键]=src将一维数据赋值给二维即可。

对象运算

numpy类似,加减乘除都是逐元素运算,也可使用聚合函数np.sum()等。

对象与对象之间维度不同仍可运算,但不同的纬度值会直接缺失。

对象缺失值

df.isnull()发现缺失值,返回bool类型的数组

df.dropna(axis,how="方法")剔除缺失值的数据,默认axis=0删除行数据,也推荐该方式,因为训练中样本多而特征少,错误数据剔除样本即可,此外还可以使用how参数对剔除标准进行设置,比如设置为all表示数据全缺失才剔除,也可以输入其他个数。

df.fillna(参数)填充数据,可设置为0,或使用聚合函数np.mean()使用平均值填充,或method="ffill"或"bfill"使用前后数据填充。

Excel导入

以下图简单数据作为示例:
excel示例
使用df=pd.read.csv(路径,index_col=0)读取表格文件到pandas,数据太多时可用df.head()展示前五行信息,np中的聚合函数在pd中均改为方法,即通过对象直接调用sum等方法,分析结果可用describe聚合查看,简单示例如下:
excel简单
百分数分别表示该位置的数,如50%代表中位数的值。

数据透视

本文的示例只用于学习语法使用,实际的数据可能数量很大,整体查看很难获得有用信息,此时可以使用函数pivot_table(目的结果,index/colums=因子)查看因子如何影响结果,更新展示数据为
透视数据
更接近实际问题,透视示例展示如下:
透视示例

该方法中隐含参数aggfunc默认为mean求平均,也可使用其他聚合函数summax等。

该示例数据量很小,数据集中可能增大时年龄分布可能很广,每个年龄都单独统计看着让人眼花,所以需要进行分割计算,可以用age=pd.cut(df[标签],[分割点])再进行数据穿透,也可以使用pd.qcut(df[标签],n)自动将数据分成n份,简单示例如下:

age=pd.cut(df["年龄"],[0,21,23])
df.pivot_table("工资",index=age,columns="学历")

分割穿透

总结

本节学习了深度学习pandas库的使用,包括创建标签,访问和增加数据,比较关键的是在excel中的导入和使用,该库基于numpy实现,大部分方法可以直接使用,至此我们完成了深度学习数据操作的内容,下一步需要学习的就是网络的相关知识,包括如何搭建和调整参数。


http://www.kler.cn/a/382518.html

相关文章:

  • 6堆(超级重点)
  • 海量数据迁移:Elasticsearch到OpenSearch的无缝迁移策略与实践
  • 【真题笔记】21年系统架构设计师要点总结
  • IntelliJ IDEA 设置数据库连接全局共享
  • 【Wi-Fi】802.11ac wave1 vs 802.11ac wave2
  • 汇聚全球前沿科技产品,北京智能科技产业展览会·世亚智博会
  • kill-start系统进程的研究
  • 虚拟现实和增强现实技术,如何打造沉浸式体验?
  • cuda 环境搭建
  • 躺平成长-代码开发,利用kimi开发小程序(09)
  • 源码解析篇 | YOLO11:计算机视觉领域的新突破 !对比YOLOv8如何 ?
  • DDoS防护应急手段详解
  • string模拟实现构造+析构
  • Java学习Day60:微服务总结!(有经处无火,无火处无经)
  • 栈的算法题 —— 有效的括号(LeetCode)
  • Java | Leetcode Java题解之第539题最小时间差
  • Python 自动化运维:安全与合规最佳实践
  • go 包管理
  • 进程和线程概念
  • Transformer究竟是什么?预训练又指什么?BERT
  • 查看 Active NameNode 的服务 ID
  • TryHackMe | Active Directory Basics
  • 2024中国自动化大会(CAC2024)“智慧化工及复合人才培养”平行会议圆满落幕
  • 50. Pow(x, n)
  • android——jetpack startup初始化框架
  • 区别:矩阵合同和矩阵酉相似