当前位置: 首页 > article >正文

Pandas语句

数据加载与保存
读取数据
pd.read_csv(‘filename.csv’):读取 CSV 文件。
pd.read_excel(‘filename.xlsx’):读取 Excel 文件。
pd.read_sql(query, connection_object):从 SQL 数据库中读取数据。
pd.read_json(‘filename.json’):读取 JSON 文件。
保存数据
df.to_csv(‘filename.csv’):将数据保存为 CSV 文件。
df.to_excel(‘filename.xlsx’):将数据保存为 Excel 文件。
df.to_sql(‘table_name’, connection_object):将数据保存到 SQL 数据库中。
df.to_json(‘filename.json’):将数据保存为 JSON 文件。
数据查看与检查
查看数据
df.head(n):查看数据框的前 n 行(默认 5 行)。
df.tail(n):查看数据框的后 n 行(默认 5 行)。
df.sample(n):随机抽取 n 行数据。
数据框信息
df.info():查看数据框的基本信息,包括列名、数据类型和缺失值等。
df.describe():查看数据框的统计描述,包括计数、均值、标准差、最小/最大值等。
列名与索引
df.columns:查看数据框的列名。
df.index:查看数据框的索引。
数据清洗与预处理
缺失值处理
df.dropna():删除包含缺失值的行或列(根据参数 axis)。
df.fillna(value):用指定值填充缺失值。
df.interpolate():用插值方法填充缺失值。
数据转换
df[‘column’].astype(dtype):转换列的数据类型。
df.apply(func, axis=1):对数据框的每一行或列应用函数(根据 axis 参数)。
df.map(func):对数据框的某一列应用函数(通常用于替换值)。
数据筛选
df[df[‘column’] > value]:基于列的条件筛选行。
df.query(‘column > value’):用查询字符串筛选行。
df.loc[row_indices, col_indices]:基于行和列的索引选择数据。
df.iloc[row_indices, col_indices]:基于行和列的整数位置选择数据。
数据排序
df.sort_values(by=‘column’):按指定列的值排序。
df.sort_index():按索引排序。
数据去重
df.drop_duplicates():删除重复行。
数据合并与分组
pd.concat([df1, df2], axis=0):沿指定轴连接数据框(默认是行连接)。
pd.merge(df1, df2, on=‘column’):基于指定列合并数据框(类似 SQL 的 JOIN)。
df.groupby(‘column’).agg(func):按指定列分组,并对每组应用聚合函数。
文本处理
df[‘column’].str.lower():将列中的字符串转换为小写。
df[‘column’].str.upper():将列中的字符串转换为大写。
df[‘column’].str.contains(‘pattern’):检查列中的字符串是否包含指定模式。
df[‘column’].str.replace(‘pattern’, ‘replacement’):替换列中字符串的指定模式。
数据可视化(简单)
虽然 Pandas 本身不是专门的可视化库,但它提供了一些简单的可视化工具:
df.plot.line():绘制折线图。
df.plot.bar():绘制条形图。
df.plot.hist():绘制直方图。
df.plot.box():绘制箱线图。
df.plot.scatter(x=‘col1’, y=‘col2’):绘制散点图。


http://www.kler.cn/news/310697.html

相关文章:

  • 【笔记】进制转换
  • Redis技术解析(基础篇)
  • spring boot 定时器配置
  • Qt中pro项目文件配置介绍
  • 智慧园区:解析集成运维的未来之路
  • 在 Windows 上恢复已删除的 PDF 文件的最佳方法
  • 基于Spring Boot的能源管理系统+建筑能耗+建筑能耗监测系统+节能监测系统+能耗监测+建筑能耗监测
  • 健康监测功能或暂缓亮相,Apple Watch Series 10最新爆料解析
  • DeepFaceLab训练技巧
  • WordPress建站钩子函数及使用
  • 大数据新视界 --大数据大厂之 Cassandra 分布式数据库:高可用数据存储的新选择
  • 基于SpringBoot+Vue的网上书店
  • git bash中执行java命令乱码问题处理
  • Python基础(六)——PyEcharts数据可视化初级版
  • C语言 | Leetcode C语言题解之第414题第三大的数
  • java定时任务
  • QT----基于QML的计时器
  • 【算法】堆与优先级队列
  • shinyproxy部署R语言shiny APP
  • C++:字符串string转成整型int
  • 数据结构一:绪论
  • linux-系统管理与监控-日志管理
  • 本地不能訪問linux的kafka服務
  • 研1日记14
  • 【数据结构】排序算法---冒泡排序
  • 【JVM GC核心参数】JVM原理,JAVA 各种垃圾回收器的核心参数,JAVA GC回收器参数配置,核心参数说明
  • 二百六十四、Java——Java采集Kafka主题A的JSON数据,解析成一条条数据,然后写入Kafka主题B中
  • 数组学习内容
  • Agent:原理与快速构建 | 人工智能 | Langchain | Python ——学习笔记
  • 使用 Fairseq 进行音频预训练:配置与实现