当前位置: 首页 > article >正文

算法:TopK问题

题目

有10亿个数字,需要找出其中的前k大个数字。

为了方便讲解,这里令k为5。

思路分析(以找前k大个数字为例)

很容易想到,进行排序,然后取前k个数字即可。
但是,难点在于,10亿个数字,假设每个数字都是int,就需要40亿个字节,接近40G的内存,这是很恐怖的数据,肯定不可能直接进行排序。

那我们怎么办呢?

我们可以建一个k个元素的堆
找前k大的数字建小堆,找前k小的数字建大堆
接着,将剩下N - k个数字与堆顶元素比较
如果比堆顶元素大,就进入堆,向下调整,维护好堆
遍历完所有的数字即可
最终堆里面的元素就是前k大个数字

思路虽然不好想,但是理解起来还是比较简单的,
难点在于,为什么找前k个大数字要建小堆呢?

OK,我们先假设,建大堆。
当中途找到了最大的数字,这个数字就会一直再堆顶,如果后面还有其他前k大的数字,但小于最大的数字,就会被挡住,无法进入堆。

所以找前k大个数字要建小堆,找前k小个数字要建大堆,是相同的道理。

时间复杂度分析

如果采用排序来寻找前K大个数字,时间复杂度是O(N * logN)
但是采用建堆的思路,时间复杂度是O(K + (N - K) *logK)
因为N是远大于K的,所以,时间复杂度为O(N),优于排序算法。
而且空间复杂度也非常小。

整体思路上完全优于排序算法。

代码

10亿个数据太难造了,这里就简单使用10万个数据模拟一下吧
用随机数模拟出10万个数据,接着进行打桩,在这10万个数据中造出一些特殊数据,这里为1000001,1000002,1000003,1000004,1000005

void CreateNDate()
{
	// 造数据
	int n = 100000;
	srand(time(0));
	const char* file = "data.txt";
	FILE* fin = fopen(file, "w");
	if (fin == NULL)
	{
		perror("fopen error");
		return;
	}

	for (size_t i = 0; i < n; ++i)
	{
		int x = rand() % 1000000;
		if (i == 333)
			x = 1000001;

		if (i == 444)
			x = 1000002;

		if (i == 555)
			x = 1000003;

		if (i == 666)
			x = 1000004;

		if (i == 777)
			x = 1000005;

		fprintf(fin, "%d\n", x);
	}

	fclose(fin);
}


void TopK(int k)
{
	const char* file = "data.txt";
	FILE* fout = fopen(file, "r");
	if (fout == NULL)
	{
		perror("fopen error");
		return;
	}

	int* heap = new int[k];
	for (int i = 0; i < k; i++)
	{
		fscanf(fout, "%d", &heap[i]);
	}

	for (int i = (k - 1 - 1) / 2; i >= 0; --i)
	{
		AdjustDown(heap, k, i);
	}

	int x = 0;
	while (fscanf(fout, "%d", &x) != EOF)
	{
		if (x > heap[0])
		{
			heap[0] = x;
			AdjustDown(heap, k, 0);
		}
	}
	
	for (int i = 0; i < k; ++i)
	{
		cout << heap[i] << " ";
	}
	cout << endl;
}


int main()
{
  CreateNData();
  TopK(5);
   
   return 0;
}

在这里插入图片描述


http://www.kler.cn/news/310151.html

相关文章:

  • IMS中的号码规整 5G注册流程中的语音相关参数
  • Java | Leetcode Java题解之第414题第三大的数
  • LEETCODE 每日一题 (单调栈 +滑动窗口模拟)
  • 【H2O2|全栈】关于CSS(6)CSS基础(五)
  • 达梦disql支持上翻历史命令-安装rlwrap
  • 在家找不到手机?除了语音助手,还可以用远程控制!
  • MySQL查询第M条到第N条数据(M<N)
  • Ubuntu20.04点击文件闪退
  • STM32 - 笔记4
  • Github 2024-09-18 C开源项目日报Top10
  • VirtualBox7.1.0 安装 Ubuntu22.04.5 虚拟机
  • 园区网基础组网保姆级(mstp,vrrp,irf,eth-trunk,route-policy,ospf,bgp,rbm,nat,mlag等等)
  • 操作系统之进程
  • 【iOS】引用计数
  • 【AI学习笔记】初学机器学习西瓜书概要记录(二)常用的机器学习方法篇
  • 基于Spark的电影推荐系统设计与实现(论文+源码)_kaic
  • Linux:进程(二)
  • AUTOSAR从入门到精通-RTOS调度器(二)
  • Java项目实战II基于Java+Spring Boot+MySQL的保密信息学科平台系统(源码+数据库+文档)
  • 程序设计题(49-56)
  • LeetCode[中等] 438. 找到字符串中所有字母异位词
  • 【嵌入式硬件】续流二极管
  • 前端常用的服务器推送技术
  • python 环境问题
  • 828华为云征文|云服务器Flexus X实例|Ubunt部署Vue项目
  • 使用python来保存键盘输入情况,可保存到sqlite3数据库
  • Nginx 负载均衡:优化网站性能与可扩展性的利器
  • 使用rust自制操作系统内核
  • 需要申请 TAC
  • 「C++系列」异常处理