当前位置: 首页 > article >正文

玩转python:通俗易懂掌握高级数据结构-collections模块之Counter

引言

Counter是Python中collections模块提供的一个强大工具,用于统计可哈希对象的出现次数。它非常适合用于频率统计、词频分析、数据聚合等场景。本文将详细介绍Counter的关键用法和特性,并通过8个丰富的案例帮助读者掌握其应用。


关键用法和特性表格
特性/方法描述
统计频率快速统计可哈希对象的出现次数。
字典子类Counterdict的子类,支持所有字典操作。
初始化使用Counter(iterable)Counter(mapping)创建。
elements()返回一个迭代器,包含所有元素(按出现次数重复)。
most_common(n)返回出现次数最多的n个元素及其计数。
update(iterable)更新计数器,增加元素的计数。
subtract(iterable)更新计数器,减少元素的计数。
算术操作支持加法(+)、减法(-)、交集(&)、并集(|)操作。

1. Counter的概念

Countercollections模块中的一个类,用于统计可哈希对象的出现次数。它的主要特点是:

  • 统计频率:快速统计元素的出现次数。
  • 字典子类:支持所有字典操作,如键值访问、更新等。
  • 高效性能:统计和更新操作的时间复杂度为O(1)。

2. Counter的用法

2.1 创建Counter
from collections import Counter

# 从列表创建Counter
c = Counter(['apple', 'banana', 'apple', 'orange', 'banana', 'apple'])
print(c)  # 输出: Counter({'apple': 3, 'banana': 2, 'orange': 1})

# 从字符串创建Counter
c = Counter('abracadabra')
print(c)  # 输出: Counter({'a': 5, 'b': 2, 'r': 2, 'c': 1, 'd': 1})
2.2 访问元素计数
# 访问元素的计数
print(c['a'])  # 输出: 5
print(c['z'])  # 输出: 0(不存在时返回0)
2.3 更新计数器
# 更新计数器
c.update(['a', 'b', 'a'])
print(c)  # 输出: Counter({'a': 7, 'b': 3, 'r': 2, 'c': 1, 'd': 1})

3. Counter的常见方法

3.1 elements():返回所有元素
# 返回所有元素(按计数重复)
print(list(c.elements()))  # 输出: ['a', 'a', 'a', 'a', 'a', 'a', 'a', 'b', 'b', 'b', 'r', 'r', 'c', 'd']
3.2 most_common(n):返回最常见的元素
# 返回最常见的2个元素
print(c.most_common(2))  # 输出: [('a', 7), ('b', 3)]
3.3 subtract(iterable):减少元素计数
# 减少元素计数
c.subtract(['a', 'b', 'a'])
print(c)  # 输出: Counter({'a': 5, 'b': 2, 'r': 2, 'c': 1, 'd': 1})
3.4 算术操作
# 加法操作
c1 = Counter(['a', 'b', 'a'])
c2 = Counter(['b', 'c', 'b'])
print(c1 + c2)  # 输出: Counter({'a': 2, 'b': 3, 'c': 1})

# 交集操作
print(c1 & c2)  # 输出: Counter({'b': 1})

4. Counter的8个应用案例

案例1:统计词频
# 统计一段文本的词频
text = "Python is great. Python is easy. Python is powerful."
words = text.split()
word_count = Counter(words)
print(word_count)  # 输出: Counter({'Python': 3, 'is': 3, 'great.': 1, 'easy.': 1, 'powerful.': 1})
案例2:统计字符频率
# 统计字符串中字符的频率
s = "abracadabra"
char_count = Counter(s)
print(char_count)  # 输出: Counter({'a': 5, 'b': 2, 'r': 2, 'c': 1, 'd': 1})
案例3:找出最常见的元素
# 找出列表中最常见的元素
data = [1, 2, 2, 3, 3, 3, 4, 4, 4, 4]
c = Counter(data)
print(c.most_common(2))  # 输出: [(4, 4), (3, 3)]
案例4:统计文件中的单词频率
# 统计文件中单词的频率
with open('example.txt', 'r') as file:
    words = file.read().split()
    word_count = Counter(words)
    print(word_count.most_common(5))  # 输出文件中出现频率最高的5个单词
案例5:数据聚合
# 统计多个数据集的聚合结果
data1 = ['apple', 'banana', 'apple']
data2 = ['banana', 'orange', 'banana']
c1 = Counter(data1)
c2 = Counter(data2)
combined = c1 + c2
print(combined)  # 输出: Counter({'banana': 3, 'apple': 2, 'orange': 1})
案例6:统计投票结果
# 统计投票结果
votes = ['Alice', 'Bob', 'Alice', 'Charlie', 'Bob', 'Alice']
vote_count = Counter(votes)
print(vote_count.most_common(1))  # 输出: [('Alice', 3)]
案例7:统计列表中元素的频率
# 统计列表中元素的频率
data = [1, 2, 2, 3, 3, 3, 4, 4, 4, 4]
c = Counter(data)
print(c)  # 输出: Counter({4: 4, 3: 3, 2: 2, 1: 1})
案例8:统计多个计数器的交集
# 统计多个计数器的交集
c1 = Counter(['a', 'b', 'a'])
c2 = Counter(['b', 'c', 'b'])
print(c1 & c2)  # 输出: Counter({'b': 1})

总结

Counter是Python中一个非常实用的工具,能够快速统计元素的出现次数,并支持丰富的操作。通过本文的详细讲解和8个实际案例,读者可以快速掌握Counter的使用方法,并在实际项目中灵活应用。无论是词频统计、数据聚合,还是投票分析,Counter都能轻松应对!


http://www.kler.cn/a/588476.html

相关文章:

  • 零基础掌握分布式ID生成:从理论到实战的完整指南 [特殊字符]
  • 563采药
  • NocoBase 本周更新汇总:双因素身份认证(2FA)
  • 蓝桥杯学习-08序列二分
  • 【动手学深度学习】#2线性神经网络
  • 火焰图分析Java程序瓶颈
  • 第15章:ConvNeXt图像分类实战:遥感场景分类【包含本地网页部署、迁移学习】
  • git subtree在本地合并子仓库到主仓库
  • KY-038 声音传感器如何工作以及如何将其与 ESP32 连接
  • java 线程池Executor框架
  • 深入解析 Vue 3 Teleport:原理、应用与最佳实践
  • 使用Inno Setup将Unity程序打成一个安装包
  • Native层逆向:ARM汇编与JNI调用分析
  • node.js-WebScoket心跳机制(服务器定时发送数据,检测连接状态,重连)
  • 游戏成瘾与学习动力激发策略研究——自我效能理论
  • 深入理解Linux网络随笔(七):容器网络虚拟化--Veth设备对
  • 基于javaweb的SSM+Maven网上选课管理系统设计与实现(源码+文档+部署讲解)
  • JavaScript性能优化的12种方式
  • Function 和 Consumer函数式接口
  • Ubuntu docker镜像恢复至原始文件