当前位置: 首页 > article >正文

面试场景题

1.topK,高频元素,大文件小内存

如何从海量数据中找出高频词? | Vingkin的学习博客

问题:有一个 1G 大小的文件,里面每一行是一个词,每个词的大小不超过 16 字节,内存限制大小是 1M。返回出现频率最高的 100 个单词

2g文件搜索topK个元素

先分割,比如2g = 512k * 2048个小文件

你要对每个小文件做单词统计,那一共需要2048个hash表,也就是hash数组

对每个小文件遍历建立小hash?

然后对统计的hash对加入k大小的小根堆,这样能找到top k个最大的


http://www.kler.cn/news/318734.html

相关文章:

  • Vue3 中集成海康 H5 监控视频播放功能
  • centos安装python3.10教程
  • Unity DOTS系列之Aspect核心机制分析
  • FileLink跨网文件传输 | 跨越网络边界的利器,文件传输不再受限
  • mysqli_fetch_object() 和 mysqli_fetch_array() 函数的区别
  • 《解锁高效流程设计:深度剖析责任链模式与实战应用》
  • MySQL 的认证插件
  • android 15 Adapter TextView中英文差异 高度不一致
  • 2024云手机推荐与排行:怎样选择最适合的云手机?
  • MyBatis 多数据源支持
  • MySQL版本问题无法使用 group by xxx
  • GitLab 批量创建用户
  • 【web开发】Spring Boot 快速搭建Web项目(三)
  • Milvus - 比特集机制及其应用场景详解
  • DashVector x 通义千问大模型:打造基于专属知识的问答服务
  • 【C++篇】手撕 C++ string 类:从零实现到深入剖析的模拟之路
  • 测试面试题:接口测试与功能测试相比较的优点有哪些?
  • 利士策分享,如何在有限的时间内过上富足的生活?
  • YOLOv9改进策略【损失函数篇】| 2024 引进Focaler-IoU损失函数 加强边界框回归
  • 扩散模型实战:从零开始训练手写数字生成模型
  • ★ C++进阶篇 ★ 二叉搜索树
  • service 命令:管理系统服务
  • AI学习指南深度学习篇-Adagrad超参数调优与性能优化
  • C语言 | Leetcode C语言题解之第435题无重叠区间
  • 编译原理3——词法分析
  • Pytest-如何将allure报告发布至公司内网
  • 微生物多样性数据的可视化技巧
  • 新能源汽车数据大全(产销数据\充电桩\专利等)
  • brpc之io事件分发器
  • 【会议征稿通知】第三届图像处理、计算机视觉与机器学习国际学术会议(ICICML 2024)