当前位置: 首页 > article >正文

【愚公系列】《Python网络爬虫从入门到精通》035-DataFrame数据分组统计整理

标题 详情
作者简介 愚公搬代码
头衔 华为云特约编辑,华为云云享专家,华为开发者专家,华为产品云测专家,CSDN博客专家,CSDN商业化专家,阿里云专家博主,阿里云签约作者,腾讯云优秀博主,腾讯云内容共创官,掘金优秀博主,亚马逊技领云博主,51CTO博客专家等。
近期荣誉 2022年度博客之星TOP2,2023年度博客之星TOP2,2022年华为云十佳博主,2023年华为云十佳博主,2024年华为云十佳博主等。
博客内容 .NET、Java、Python、Go、Node、前端、IOS、Android、鸿蒙、Linux、物联网、网络安全、大数据、人工智能、U3D游戏、小程序等相关领域知识。
欢迎 👍点赞、✍评论、⭐收藏

文章目录

  • 🚀前言
  • 🚀一、DataFrame数据分组统计整理
    • 🔎1.`groupby` 方法概述
    • 🔎2.参数详解
    • 🔎3.分组统计场景与实例
      • 🦋3.1 单列分组统计
      • 🦋3.2 多列分组统计
      • 🦋3.3 分组后指定列计算
    • 🔎4.分组数据迭代
    • 🔎5.通过字典/Series分组统计
      • 🦋5.1 字典分组
      • 🦋5.2 Series分组
    • 🔎6.注意事项
    • 🔎7.附:常见聚合函数


🚀前言

在数据分析过程中,数据的分组统计是揭示数据内在规律的重要方法。无论是对销售数据进行汇总,还是分析用户行为,合理的分组统计可以帮助我们更清晰地理解数据背后的趋势和模式。Pandas库中的DataFrame为我们提供了强大的工具,使得分组统计变得简单而高效。

本文将深入探讨如何在DataFrame中进行数据分组和统计整理。我们将介绍如何使用Pandas的groupby功能,进行多种汇总操作,包括计数、求和、平均值等。同时,我们还会展示如何处理复杂数据场景,比如多重分组和自定义聚合函数。通过具体的示例和实用技巧,帮助你掌握数据分组的核心思路,提高数据分析的准确性和效率。

🚀一、DataFrame数据分组统计整理

🔎1.groupby 方法概述

DataFrame.groupby() 是 Pandas 中用于数据分组统计的核心方法,支持灵活的分组规则和聚合操作,功能类似 SQL 的 GROUP BY。语法如下:

DataFrame.groupby(
    by=None, 
    axis=0, 
    level=None, 
    as_index=True, 
    sort=True, 
    group_keys=True, 
    squeeze=False, 
    observed=False
)

🔎2.参数详解

参数 说明
by 分组依据:列名、列名列表、字典、Series 或函数
axis 分组方向:0 按列分组(默认),1 按行分组
level 多层索引时指定层级(默认 None
as_index 是否以分组键为索引:True(默认),False 返回普通索引
sort 是否对分组结果排序:True(默认),False 保留原始顺序
group_keys 是否保留分组键:True(默认),False 隐藏分组键
observed 分类数据分组时,是否仅显示观测值:False(默认显示所有值)

🔎3.分组统计场景与实例

🦋3.1 单列分组统计

场景:按“一级分类”分组统计销量总和
代码:

import pandas as pd  #导入pandas模块
#设置数据显示的列数和宽度
pd.set_option('display.max_columns',500)
pd.set_option('display.width',1000)
#解决数据输出时列名不对齐的问题
pd.set_option('display.unicode.east_asian_width', True)
df=pd.read_csv(

http://www.kler.cn/a/566871.html

相关文章:

  • 一文掌握python中正则表达式的各种使用
  • 天佐.乾坤袋 基于抽屉式文件存储的NoSql数据库
  • Python安装环境变量
  • java项目之基于ssm的物流配送人员车辆调度管理系统的设计与实现(源码+文档)
  • 太速科技-887-基于 RFSoC 47DR的8T8R 100Gbps 软件无线电光纤前端卡
  • Mysql官网下载Windows、Linux各个版本
  • 48页PDF | GBT 36073-2018 数据管理能力成熟度评估模型 (附下载)
  • [讨论] oracle数据库游标更新时sql%rowcount影响数量记录的一个疑问
  • 本地部署AI大模型之PyTorch:如何使用whl文件安装PyTorch
  • Linux上用C++和GCC开发程序实现不同MySQL实例下单个Schema之间的稳定高效的数据迁移
  • 鸿蒙 ArkUI 实现 2048 小游戏
  • Spring系列学习之Spring CredHub
  • 1160 拼写单词
  • TP-LINK路由器如何设置网段、网关和DHCP服务
  • 网络层(IP)
  • c#实现485协议
  • TCP基本入门-简单认识一下什么是TCP
  • 【deepseek】本地部署+webui访问
  • Redis使用手册
  • Spring Boot 启动与 Service 注入的 JVM 运行细节