【LeetCode347】前k个高频元素
题目描述
给你一个整数数组 nums 和一个整数 k ,请你返回其中出现频率前 k 高的元素。你可以按 任意顺序 返回答案。
思路
- 统计元素的频率:使用 collections.Counter 来统计数组中每个元素出现的频率
- 获取前 k 个频率最高的元素
优先队列(堆):一个常见的方法是使用 最小堆(heapq)。最小堆能够在 O(log n) 的时间复杂度内进行插入和删除操作。我们可以将元素和频率作为元组存入堆中。
通过堆来获取频率前 k 高的元素。
代码
from collections import Counter
import heapq
class Solution:
def topKFrequent(self, nums: List[int], k: int) -> List[int]:
# 1、统计频数
count = Counter(nums)
# 2、使用堆来寻找频率前k的元素
# heapq.nlargest 返回的是一个包含元组的列表
# 通过列表推导式 [item[0] for item in ...] 提取出频率前 k 高的元素
# count.items() 返回一个元组的列表,每个元组包含一个元素及其频率。
# 参数 key=lambda x: x[1] 意味根据元组的第二个元素(即元素的频率)进行排序
return [item[0] for item in heapq.nlargest(k, count.items(), key = lambda x : x[1])]
总结
通过 heapq.nlargest 可以很方便地找到前 k 大的元素,堆的大小始终保持为 k。
通过使用堆来处理问题,而不是直接排序,能够避免 O(n log n) 的时间复杂度,提升到 O(n log k),其中 k 通常比 n 要小很多,因此能够有效提高效率。
堆的基础知识
堆是一种特殊的二叉树,但它不仅仅是任何树——它具有一个特定的属性:
最大堆:在最大堆中,每个父节点的值都大于或等于其子节点的值。因此,最大元素总是位于根节点。
最小堆:在最小堆中,每个父节点的值都小于或等于其子节点的值。因此,最小元素总是位于根节点
堆排序(以最大堆为例)主要分为两个步骤:
- 我们从最后一个非叶子节点(至少有一个子节点的节点)开始,并对其进行堆化。堆化意味着确保以该节点为根的子树遵循堆属性。重复这个过程,直到整个数组变成一个有效的最大堆。
- 从堆中提取最大元素:
构建最大堆后,最大的元素位于堆的根部。
我们将根元素(最大元素)与数组的最后一个元素交换。
然后,我们从堆中移除最后一个元素(因为它已经在正确的位置上)。
交换后,我们再次对根进行堆化,以恢复最大堆属性,因此下一个最大元素移动到根部。
我们重复这个过程,直到没有更多的元素需要堆化。
堆在本题情景下的巧妙应用:避免 O(n log n) 的时间复杂度,提升到 O(n log k)
最小堆的关键属性是它可以在根节点保持最小元素,这允许我们高效地添加新元素和移除最小元素。
要找到 k 个最大的元素:
- 遍历大小为 n 的数组。对于每个元素,将其插入堆中。
- 如果堆超过 k 个元素,移除根节点(最小元素)。
- 插入每个元素需要 O(log k) 时间。对所有 n 元素执行此操作的时间复杂度为 O(n log k)。