当前位置: 首页 > article >正文

面试场景题

1.topK,高频元素,大文件小内存

如何从海量数据中找出高频词? | Vingkin的学习博客

问题:有一个 1G 大小的文件,里面每一行是一个词,每个词的大小不超过 16 字节,内存限制大小是 1M。返回出现频率最高的 100 个单词

2g文件搜索topK个元素

先分割,比如2g = 512k * 2048个小文件

你要对每个小文件做单词统计,那一共需要2048个hash表,也就是hash数组

对每个小文件遍历建立小hash?

然后对统计的hash对加入k大小的小根堆,这样能找到top k个最大的


http://www.kler.cn/a/318734.html

相关文章:

  • Android Studio更新成2024.1.2版本后旧项目Gradle配置问题
  • 微服务各组件整合
  • 曹操为什么总是亲征
  • 数据挖掘(九)
  • 知识图谱6:neo4j查询语句
  • 使用pdfjs加载多页pdf并实现打印
  • Vue3 中集成海康 H5 监控视频播放功能
  • centos安装python3.10教程
  • Unity DOTS系列之Aspect核心机制分析
  • FileLink跨网文件传输 | 跨越网络边界的利器,文件传输不再受限
  • mysqli_fetch_object() 和 mysqli_fetch_array() 函数的区别
  • 《解锁高效流程设计:深度剖析责任链模式与实战应用》
  • MySQL 的认证插件
  • android 15 Adapter TextView中英文差异 高度不一致
  • 2024云手机推荐与排行:怎样选择最适合的云手机?
  • MyBatis 多数据源支持
  • MySQL版本问题无法使用 group by xxx
  • GitLab 批量创建用户
  • 【web开发】Spring Boot 快速搭建Web项目(三)
  • Milvus - 比特集机制及其应用场景详解
  • DashVector x 通义千问大模型:打造基于专属知识的问答服务
  • 【C++篇】手撕 C++ string 类:从零实现到深入剖析的模拟之路
  • 测试面试题:接口测试与功能测试相比较的优点有哪些?
  • 利士策分享,如何在有限的时间内过上富足的生活?
  • YOLOv9改进策略【损失函数篇】| 2024 引进Focaler-IoU损失函数 加强边界框回归
  • 扩散模型实战:从零开始训练手写数字生成模型