当前位置: 首页 > article >正文

C++中set集合和Python中set集合的区别

C++ 和 Python 中的 set 容器都有相同的集合属性:元素唯一性和常规的集合操作(如交集、并集、差集等),但由于它们的实现机制、操作方法和性能特性有所不同,适用场景也存在差异。以下是两者的主要区别:

1. 底层实现

  • C++ set

    • 使用**红黑树(Red-Black Tree)**实现,因此它是有序集合,默认情况下,所有元素按升序排列。
    • 插入、删除和查找的时间复杂度为 O(log n)
    • C++ 中还提供了 unordered_set,它使用哈希表实现,提供 O(1) 的查找和插入性能,但元素是无序的。
  • Python set

    • 使用**哈希表(Hash Table)**实现,是无序集合,元素的存储顺序不一定与插入顺序一致。
    • 插入、删除和查找的时间复杂度平均为 O(1)
    • 由于哈希表的特性,元素必须是可哈希的(支持 __hash__ 方法),通常需要是不可变类型(如整数、字符串、元组等)。

2. 元素类型及可变性

  • C++ set

    • 元素类型由模板参数指定,如 set<int> 表示存储整型元素的集合。
    • 可以存储任何可以进行比较的自定义类型(需要实现 < 操作符),如结构体、自定义类等。
    • 元素在 set 中通常是不可变的,因为修改元素可能破坏有序性,若需要修改元素,需要先删除后插入。
  • Python set

    • 可以存储任意类型的元素,只要它们是可哈希的。
    • 可以混合不同类型的数据,但必须保证类型是可比较和可哈希的。
    • 元素本身不可变,但集合本身是可变的,可以动态添加或删除元素。

3. 性能差异

  • C++ set

    • 由于 set 基于红黑树实现,因此插入、删除、查找的时间复杂度是 O(log n),比哈希表实现的 Python set 稍慢,但能保持元素有序。
    • 适合需要元素有序访问的场景,且元素个数较大时(上万或以上)性能相对稳定。
  • Python set

    • 基于哈希表实现,插入、删除、查找的平均时间复杂度为 O(1),性能非常高,但在元素较多或哈希冲突严重时,性能可能下降。
    • 适合快速查找、去重和集合操作,但不适合需要排序的场景。

4. 有序性

  • C++ set

    • 默认按升序存储元素,也可以通过自定义比较函数实现自定义排序规则(如降序排列)。
    • 提供了 multiset 容器,可以存储重复元素,并且依然保持有序性。
  • Python set

    • 元素无序存储,且集合操作(如交集、并集、差集等)的结果顺序不一定固定。
    • 如果需要存储有序集合,可以使用 sorted() 函数对 set 进行排序,或者使用 collections.OrderedDict 来实现类似功能。

5. 成员函数与操作符

  • C++ set

    • 提供了丰富的成员函数(如 inserterasefindcountlower_boundupper_bound 等)用于操作集合。
    • 支持标准的集合操作(如交集、并集、差集等),但需要使用算法库 <algorithm> 中的函数(如 std::set_intersection 等)。
  • Python set

    • 提供了更加直观的操作符(如 & 表示交集、| 表示并集、- 表示差集、^ 表示对称差集)和方法(如 addremovediscardpopunionintersection 等)。
    • 操作符和方法更加直观简洁,适合快速开发和原型设计。

6. 常用操作对比

以下是 C++ set 和 Python set 的一些常用操作对比:

操作C++ setPython set
创建集合std::set<int> s;s = set()
插入元素s.insert(10);s.add(10)
删除元素s.erase(10);s.remove(10) / s.discard(10)
查找元素s.find(10) != s.end()10 in s
交集std::set<int> s3; std::set_intersection(s.begin(), s.end(), s2.begin(), s2.end(), std::inserter(s3, s3.begin()));s & s2
并集std::set<int> s3; std::set_union(s.begin(), s.end(), s2.begin(), s2.end(), std::inserter(s3, s3.begin()));`s
差集std::set<int> s3; std::set_difference(s.begin(), s.end(), s2.begin(), s2.end(), std::inserter(s3, s3.begin()));s - s2
对称差集std::set<int> s3; std::set_symmetric_difference(s.begin(), s.end(), s2.begin(), s2.end(), std::inserter(s3, s3.begin()));s ^ s2

7. 内存管理

  • C++ set

    • 元素分配使用标准的动态内存分配器,如 std::allocator,可以根据需求自定义内存分配策略。
    • 由于 set 的元素存储在树的节点中,因此内存开销略大于 vectorlist 等线性容器。
  • Python set

    • 元素直接存储在哈希表中,因此哈希表的负载因子(load factor)决定了内存使用量。
    • 由于哈希表本身的存储结构,内存开销较高,但可以快速进行查找操作。

8. 特殊类型集合

  • C++ set

    • 提供了 multiset(可以存储重复元素),以及 unordered_set(基于哈希表实现,无序集合)。
    • 也有 unordered_multiset,用于存储重复元素的无序集合。
  • Python set

    • 提供了 frozenset,即不可变集合,常用于集合作为其他集合或字典的键(因为普通 set 是可变类型,不能作为字典的键)。
    • 没有类似 multiset 的类型(可以使用 collections.Counter 来实现重复元素的集合统计)。

总结

  • 如果你需要有序集合或需要处理复杂的集合操作(如排序、区间查找等),C++ 的 set 更加合适。
  • 如果你需要快速查找、插入、删除操作,且不关注元素的存储顺序,Python 的 set 更为合适。

http://www.kler.cn/a/326995.html

相关文章:

  • 解析在OceanBase创建分区的常见问题|OceanBase 用户问题精粹
  • 272-1路万兆光纤SFP+和1路千兆网络 FMC子卡模块
  • 递归读取指定目录下的文件
  • (2024.12)Ubuntu20.04安装openMVS<成功>.colmap<成功>和openMVG<失败>记录
  • 什么是3DEXPERIENCE SOLIDWORKS,它有哪些角色和功能?
  • Ubuntu Netlink 套接字使用介绍
  • 【Golang】关于Go语言数学计算、随机数生成模块--math
  • 微信小程序使用picker,数组怎么设置默认值
  • RabbitMQ MQ的可靠性及消费者的可靠性
  • 【Ubuntu】VMware中虚拟网卡与服务器网卡的绑定
  • XHTML学习
  • MacOS升级Ruby版本详解:步骤、挑战与解决方案
  • 【Linux:线程概念】
  • 【并发】ThreadLocal 为什么会内存泄露
  • golang小项目1-家庭收支记账系统
  • java计算机毕设课设—超级玛丽游戏(附源码、文章、相关截图、部署视频)
  • OJ在线评测系统 后端基础部分开发 完善CRUD相关接口
  • 【ARM 嵌入式 C 入门及渐进26 -- 内敛函数和宏定义的区别】
  • armbian安装docker
  • MongoDB的查询/超详细/表达式符号
  • SQLMap使用指南
  • Linux服务安装node,npm与yarn
  • 0-1开发自己的obsidian plugin DAY 6
  • 数据挖掘的基本步骤和流程解析:深入洞察与策略实施
  • 重修设计模式-行为型-责任链模式
  • ubuntu24.04 最好的输入法是什么?