当前位置: 首页 > article >正文

堆排序,TopK问题|向上调整建堆|向下调整建堆(C)

堆排序

void HeapSort(int* a, int n)
{
	HP hp;
	HeapInit(&hp);
	for (int i = 0; i < n; i++)
	{
		HeapPush(&hp, a[i]);
	}

	int i = 0;
	while (!HeapEmpty(&hp))
	{
		a[i++] = HeapTop(&hp);
		HeapPop(&hp);
	}

	HeapDestroy(&hp);
}
  • 先初始化一个堆
  • 将数组中的数据一个一个顺序插入堆里
  • 然后将堆顶的数据赋给数组首元素
  • 接着删除堆顶,然后读下一个堆顶,再赋给数组的下一位
  • 直到整个堆空,数组整个赋了一遍,排序完毕
    缺点
  1. 得先有一个堆的数据结构

  2. 空间复杂度的消耗

  3. 建堆
    升序:建大堆
    降序:建小堆

  4. 利用堆删除思想来进行排序

向上调整建堆

  • 升序建大堆
    要排升序,不能建小堆,虽然选出了最小的
    建小堆之后,关系全乱了,剩下的数据,不一定是堆
    要选次小,只能用剩下的数据重新建堆

升序要建立大堆
把最大的数据选出来以后,把堆顶的数据和最后一个数据交换,最大的数据排好了,在把这个最后的最大的数据不看做堆里的数据,
这样,剩下的数据的相对关系没动,左子树还是大堆,右子树还是大堆,把剩下的数看作堆,向下调整选出次大的,代价是 O ( log ⁡ 2 N ) O(\log_{2}N) O(log2N)
合计是 O ( n ∗ log ⁡ 2 N ) O(n*\log_{2}N) O(nlog2N)

排升序建大堆示意

![[Pasted image 20240927155920.png]]

  1. 交换a0和a5
    ![[Pasted image 20240927160033.png]]

  2. 从堆顶开始向下调整,直到称为大顶堆
    ![[Pasted image 20240927160148.png]]

![[Pasted image 20240927160225.png]]

  1. 交换a0与a4
    ![[Pasted image 20240927160313.png]]

  2. 继续调整为大堆
    ![[Pasted image 20240927160420.png]]

  3. 交换a0与a3
    ![[Pasted image 20240927160457.png]]

  4. 继续调整为大堆
    ![[Pasted image 20240927160543.png]]

  5. 交换a0与a2
    ![[Pasted image 20240927160628.png]]

  6. 交换a0与a1
    ![[Pasted image 20240927160741.png]]

  7. 完成
    这样最终数组就是升序的

堆排序是一种选择排序

  • 排降序建小堆
//升序
void HeapSort(int* a, int n)
{
	//建大堆
	for (int i = 1; i < n; i++)
	{
		AdjustUp(a, i);
	}

	int end = n - 1;
	while (end > 0)
	{
		Swap(&a[0], &a[end]);
		AdjustDown(a, end, 0);
		--end;
	}
}
  • 传参传数组的地址和数组大小
  • 从数组第一个数开始遍历,每个数都向上调整,这样遍历完之后,这组数据就形成大堆
  • 用end指向最后一个元素,也就是最后一个节点
  • 将根节点与最后一个节点交换
  • 从根节点开始向下调整,直到最后一个节点的最后一个节点
  • end–,将最大的一个数从堆中剔除出去
  • 然后开始循环,将根节点也就是次大的与当前最后一个节点交换,再向下调整,找出第三大的,再次end–
  • 循环直到end从数组尾开始遍历到数组头
时间复杂度

![[Pasted image 20240927154406.png]]

第1层, 2 0 2^{0} 20个节点,不调整
第2层, 2 1 2^{1} 21个节点,向上调整1次
第3层, 2 2 2^{2} 22个节点,向上调整2次
第4层, 2 3 2^{3} 23个节点,向上调整3次

第h-1层, 2 h − 2 2^{h-2} 2h2个节点,向上调整h-2次
第h层, 2 h − 2^{h-} 2h个节点,向上调整h-1次
Expected node of symbol group type, but got node of type cr
T ( h ) = − ( 2 1 + 2 2 + ⋯ + 2 h − 1 + 2 h ) + 2 h ⋅ h T(h)=-(2^{1}+2^{2}+\dots+2^{h-1}+2^{h})+2^{h}\cdot h T(h)=(21+22++2h1+2h)+2hh
T ( h ) = − ( 2 0 + 2 1 + 2 2 + ⋯ + 2 h − 2 + 2 h − 1 ) + 2 h ⋅ ( h − 1 ) + 2 0 T(h)=-(2^{0}+2^{1}+2^{2}+\dots+2^{h-2}+2^{h-1})+2^{h}\cdot (h-1)+2^{0} T(h)=(20+21+22++2h2+2h1)+2h(h1)+20
T ( h ) = − 2 h + 1 + 2 h ⋅ ( h − 1 ) + 1 T(h)=-2^{h}+1+2^{h}\cdot (h-1)+1 T(h)=2h+1+2h(h1)+1
换算到N
T ( h ) = T ( N ) = − N + ( N + 1 ) ⋅ ( log ⁡ 2 ( N + 1 ) − 1 ) + 1 T(h)=T(N)=-N+(N+1)\cdot (\log_{2}(N+1)-1)+1 T(h)=T(N)=N+(N+1)(log2(N+1)1)+1
T ( N ) = O ( N ⋅ log ⁡ 2 N − N ) T(N)=O(N\cdot \log_{2}N-N) T(N)=O(Nlog2NN)

向下调整建堆

建大堆
需要左右子树都是大堆

从下面开始往上调整:
找倒数第一个非叶子节点,也就是最后一个节点的父亲开始调
找到以后,在这个非叶子节点的子树里,进行向下调整
再往前一棵子树走,继续向下调整,
继续往前遍历每一棵子树,直到根节点

![[Pasted image 20240927164044.png]]

  1. 找到导数第一个非叶子节点,进行向下调整
2,3,5,7,4,6,8,65,100,70,32,50,60

设整个数组有n个数据,60的下标就是n-1,这里是12
通过公式计算出它的父节点的下标,13-2除以2等于5也就是6
2. 以6为根节点,建大堆,向下调整
![[Pasted image 20240927164611.png]]

  1. 往前遍历,将小标5之前的节点全部作为根节点,向下调整建大根堆
    ![[Pasted image 20240927164725.png]]

  2. 到最后三个节点
    ![[Pasted image 20240927164922.png]]

  3. 直到根节点
    ![[Pasted image 20240927165015.png]]

//升序
void HeapSort(int* a, int n)
{
	//向下调整建堆
	for (int i = (n - 1 - 1)/2; i >= 0; i--)
	{
		AdjustDown(a, n, i);
	}

	int end = n - 1;
	while (end > 0)
	{
		Swap(&a[0], &a[end]);
		AdjustDown(a, end, 0);
		--end;
	}
}
  • 传参传数组的地址和数组的大小
  • 从倒数第一个非叶子节点开始往前遍历,直到根节点
  • 每次遍历把当前节点视为根节点,进行向下调整,循环直到根节点
  • 这样从最底层开始,将每棵子树都变为大堆,这样最终从根节点向下调整,整棵树就变为大堆
时间复杂度

用满二叉树来计算
因为最差的情况就是节点最多的时候
总共有h层
最后一层不需要调整,从第h-1层开始调整,每个节点向下调整一次
合计要调整
T ( h ) = 2 h − 2 + 2 h − 3 ⋅ 2 + ⋯ + 2 1 ⋅ ( h − 2 ) + 2 0 ⋅ ( h − 1 ) T(h)=2^{h-2}+2^{h-3}\cdot2+\dots+2^{1}\cdot(h-2)+2^{0}\cdot(h-1) T(h)=2h2+2h32++21(h2)+20(h1)
每层的数据个数乘以向下移动的层数
等比每项乘以等差每项
Expected node of symbol group type, but got node of type cr
T ( h ) = 2 h − 1 − h T(h)=2^{h}-1-h T(h)=2h1h
T ( h ) T(h) T(h)是向下调整建堆,最坏情况下的合计调整次数
换算关于N的式子,得到时间复杂度
T ( N ) = N − log ⁡ 2 ( N + 1 ) T(N)=N-\log_{2}(N+1) T(N)=Nlog2(N+1)
约等于N

TopK问题

一般情况下,直接建堆,然后popk次

#include "Heap.h"

int main()
{
	int a[] = { 2,3,4,7,4,6,8 };
	HP hp;
	HeapInit(&hp);
	for (int i = 0; i < sizeof(a) / sizeof(int))
	{
		HeapPush(&hp, a[i]);
	}
	HeapPrint(&hp);

	while (!HeapEmpty(&hp))
	{
		printf("%d ", HeapTop(&hp));
		HeapPop(&hp);
	}

	HeapDestroy(&hp);

	return 0;
}

假设10亿个数据,内存存不下,数据在文件中,找出最大的k个
假设k等于100

  1. 读取文件中的前100个数据,在内存数组中建立一个小堆
  2. 再依次读取剩下的数据,跟堆顶数据比较,大于堆顶,就替换他进堆,向下调整
  3. 所有数据读完,堆里面的数据就是最大的前100个

不能使用大堆,否则最大的数进堆以后,就挡在这里,剩下的数就无法进堆
所以使用小堆,最大的前100个数任意一个数进来都可以进堆
小堆里面,大的数回沉到下面去

时间效率很高,有N个数据
时间复杂度 O ( N ⋅ log ⁡ 2 K ) O(N\cdot \log_{2}K) O(Nlog2K)
空间复杂度 O ( K ) O(K) O(K)
如果N远大于K
时间复杂度 O ( N ) O(N) O(N)
空间复杂度 O ( 1 ) O(1) O(1)

在文件当中找到最大的前k个

#include <stdio.h>
#include <stdlib.h>
#include <assert.h>
#include <string.h>
#include <time.h>

void PrintTopK(const char* filename, int n, int k)  
{  
	FILE* fout = fopen(filename, "r");
	if (fout == NULL)
	{
		perror("fopen fail");
		return;
	}  

	int* minheap = (int*)malloc(sizeof(int) * k);
	if (minheap == NULL)
	{
		perror("malloc fail");
		return;
	}
	
	for (int i = 0; i < k; i++)
	{
		fscanf(fout, "%d", %minheap[i]);
	}

	//前k个数建小堆
	for (int i = (k-2)/2; i >= 0; --i)
	{
		AdjustDown(minheap, k, i);
	}

	//将剩余n-k个元素依次与堆顶元素交换,不满则替换
	
	int x = 0;
	while (fscanf(fout, "%d", &x) != EOF)
	{
		if (x > minHeap[0])
		{
			//替换进堆
			minHeap[0] = x;
			AdjustDown(minHeap, k, 0);
		}
	}

	for (int i = 0; i < k; i++)
	{
		printf("%d", minHeap[i]);
	}
	printf("\n");

	fclose(fout);
}  

void CreateNote()
{
	int n = 10000;
	srand(time(0));
	const char* file = "data.txt";
	FILE* fin = fopen(file, "w");
	if (fin == NULL)
	{
		perror("fopen error");
		return;
	}

	for (size_t i = 0; i < n; ++i)
	{
		int x = rand() % 1000000;
		fprintf(fin, "%d\n", x);
	}

	fclose(fin);
}

int main()
{
	//CreateNote();
	PrintTopK("data.txt", 10);
	
	return 0;
}

如何证明程序是对的,找到的是最大的前k个?
前面建立随机数文件的时候mod了个1000000,在文件里随机添加几个超过一百万的数,看是否出现在程序结果里,如果把这些随机插进去的数都能找到,就代表程序是正确的


http://www.kler.cn/news/322822.html

相关文章:

  • Kafka系列之:安装使用kafka_exporter详细步骤
  • Agent智能体
  • 常见错误1:访问指针类型
  • 【Java异常】(简简单单拿捏)
  • Python(六)-拆包,交换变量名,lambda
  • vue3中使用echarts折线图初始化只显示一条数据,其余折线根据用户点击进行显示
  • 【java】前端RSA加密后端解密
  • 外贸电商系统卷轴模式开发:技术深度解析与实践
  • 联宇集团:如何利用CRM实现客户管理精细化与业务流程高效协同
  • 解决element树形结构切换节点,form表单缓存问题
  • 如何解决跨域请求中的 CORS 错误
  • 前端大模型入门:使用Transformers.js实现纯网页版RAG(一)
  • mobaxterm、vscode通过跳板机连接服务器
  • cocosCreator 2.x 原生平台不息屏
  • 3D 模型GLTF、GLB格式文件介绍使用;FBX格式
  • 【单调栈】单调栈基础及经典案例
  • 【计算机网络 - 基础问题】每日 3 题(十九)
  • echarts地图下钻的 两种方法
  • Text-to-SQL方法研究
  • 更换硬盘后,电脑装完系统进不去?或PE能识别硬盘但开机/启动/BIOS识别不了硬盘解决办法
  • 每日一题学习笔记
  • 深入解析JVM常用参数与配置详
  • 双端之Nginx+Php结合PostgreSQL搭建Wordpress
  • 【Streamlit案例】制作销售数据可视化看板
  • 算法实战(五):如何用学过的数据结构和算法实现一个短网址系统?
  • 【在.net6和WPF框架下进行海康SDK开发】(一)如何引用Dll
  • Llama 3.2 使用指南:工作原理及示例
  • 在 Delphi BSD11中安装 DCU 格式的第三方组件库
  • python数据分析与可视化需要掌握哪些知识点
  • 【资源一号04A卫星(中巴地球资源卫星04A星)】