当前位置: 首页 > article >正文

df.groupby()方法使用在查询中用到的筛选条件函数对 数据进行分组

这里举的例子是:

  • 按姓名首字母分组
df.groupby(df.name.str[0])
  • 按A及B、其他团队分组
df.groupby(df.team.isin(['A','B']))
  • 按姓名第一个字母和第二个字母分组
df.groupby([df.name.str[0], df.name.str[1]])
  • 按日期和小时分组
df.groupby([df.time.date, df.time.hour])

这些示例展示了如何使用 groupby 按不同的列值进行分组,每个分组的规则都是基于字符串的处理、布尔值判断或者日期时间的提取。下面我逐一解释每个示例:

1. 按姓名首字母分组

df.groupby(df.name.str[0])
  • 作用:这个 groupby 操作通过提取 name 列的每个值的首字母来进行分组。

  • df.name.str[0] 会提取 name 列中每个字符串的第一个字符(即首字母),并基于这些首字母来进行分组。

    假设 name 列的数据是:['Alice', 'Bob', 'Charlie', 'David', 'Eve'],那么 df.name.str[0] 将返回:['A', 'B', 'C', 'D', 'E']

  • 示例

    df = pd.DataFrame({
        'name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
        'age': [25, 30, 35, 40, 45]
    })
    
    result = df.groupby(df.name.str[0]).sum()
    print(result)
    

    输出:

           age
    name      
    A       25
    B       30
    C       35
    D       40
    E       45
    

2. 按 A及B、其他团队分组

df.groupby(df.team.isin(['A', 'B']))
  • 作用:这个 groupby 操作通过 team 列判断每个值是否属于 'A''B' 团队来进行分组。

  • df.team.isin(['A', 'B']) 返回一个布尔系列,对于每个 team 列中的值,如果它是 'A''B',则返回 True,否则返回 False

    假设 team 列的数据是:['A', 'B', 'C', 'A', 'D'],那么 df.team.isin(['A', 'B']) 将返回:[True, True, False, True, False]

  • 示例

    df = pd.DataFrame({
        'team': ['A', 'B', 'C', 'A', 'D'],
        'score': [80, 90, 85, 95, 70]
    })
    
    result = df.groupby(df.team.isin(['A', 'B'])).sum()
    print(result)
    

    输出:

           score
    team        
    False    155
    True     265
    
    • True 表示 AB 团队的分组,False 表示其他团队的分组。

3. 按姓名第一个字母和第二个字母分组

df.groupby([df.name.str[0], df.name.str[1]])
  • 作用:这个 groupby 操作通过提取 name 列中每个值的前两个字母来进行分组。

  • df.name.str[0] 提取第一个字母,df.name.str[1] 提取第二个字母。两个字母作为分组的依据。

    假设 name 列的数据是:['Alice', 'Alex', 'Bob', 'Charlie', 'Eve'],那么 df.name.str[0] 返回 ['A', 'A', 'B', 'C', 'E']df.name.str[1] 返回 ['l', 'l', 'o', 'h', 'v']

  • 示例

    df = pd.DataFrame({
        'name': ['Alice', 'Alex', 'Bob', 'Charlie', 'Eve'],
        'age': [25, 30, 35, 40, 45]
    })
    
    result = df.groupby([df.name.str[0], df.name.str[1]]).sum()
    print(result)
    

    输出:

               age
    name name      
    A    l       55
    B    o       35
    C    h       40
    E    v       45
    
    • 这里每个分组的标识由姓名的前两个字母组成。

4. 按日期和小时分组

df.groupby([df.time.date, df.time.hour])
  • 作用:这个 groupby 操作首先提取 time 列中的日期部分(去掉时间),然后提取小时部分(24小时制)。

  • df.time.date 提取日期部分,df.time.hour 提取小时部分。这样你可以按照日期和小时来对数据进行分组。

    假设 time 列的数据是:['2025-01-01 10:20:00', '2025-01-01 11:30:00', '2025-01-02 10:45:00'],那么 df.time.date 会返回:['2025-01-01', '2025-01-01', '2025-01-02']df.time.hour 会返回:[10, 11, 10]

  • 示例

import pandas as pd

# 创建DataFrame
df = pd.DataFrame({
    'time': pd.to_datetime(['2025-01-01 10:20:00', '2025-01-01 11:30:00', '2025-01-02 10:45:00']),
    'value': [100, 200, 300]
})
print(df,'\n\n')

# 按日期和小时分组,并对value列进行求和
result = df.groupby([df.time.dt.date, df.time.dt.hour])['value'].sum()

print(result)

输出:

在这里插入图片描述

  • 这里的数据是按照日期和小时分组的,结果是每个日期和小时组合下的 value 总和。

总结

  • 按姓名首字母分组:通过字符串的第一个字母来分组。
  • 按 A及B、其他团队分组:通过判断某个列的值是否属于特定集合(例如 'A''B')来分组。
  • 按姓名的前两个字母分组:通过字符串的前两个字母来分组。
  • 按日期和小时分组:通过日期和小时来分组,适用于处理 datetime 类型数据。

这些方法展示了 groupby 操作的灵活性,可以根据不同的条件对数据进行分组和聚合处理。


http://www.kler.cn/a/466716.html

相关文章:

  • wordpress右侧浮动咨询台插件
  • javaEE-网络编程-3 UDP
  • Science Robotics让软机器人“活”得更久的3D打印!
  • django vue3实现大文件分段续传(断点续传)
  • Python、R用深度学习神经网络组合预测优化能源消费总量时间序列预测及ARIMA、xgboost对比...
  • Oracle Dataguard(主库为 Oracle 11g 单节点)配置详解(3):配置备用数据库
  • Python基于Gradio可视化部署机器学习应用
  • Redis--内存管理(过期删除和内存淘汰策略)
  • 机器学习笔记 - 单幅图像深度估计的最新技术
  • python对mongodb的增删查改
  • 半导体材料-制造材料
  • 分布式锁常见实现方案总结
  • 数据库进阶教程之DDL语句(万字详解)
  • 使用 Docker 查看 Elasticsearch 错误日志
  • OpenCV相机标定与3D重建(41)从 3D 物点和它们对应的 2D 图像点估算初始相机内参矩阵函数initCameraMatrix2D()的使用
  • MySQL8安装与卸载
  • 跳转至系统设置下某个子模块 - 鸿蒙 Harmony
  • 使用Python实现实时视频处理与分析:解锁计算机视觉的无限可能
  • Go语言中的逃逸分析:深入浅出
  • [网络安全] DVWA之 Weak Session IDs -弱会话- 攻击姿势及解题详析合集
  • 外观模式详解
  • 大模型推理的极限:理论分析、数学建模与 CPU/GPU 实测
  • 计算机网络面试常见知识框架以及常见面试题解
  • 【数据结构-单调队列】力扣LCR 184. 设计自助结算系统
  • 24年收尾之作------动态规划<六> 子序列问题(含对应LeetcodeOJ题)
  • 如何在Windows / Mac / Android上查看 HEIC 图像