当前位置: 首页 > article >正文

hive高频写入小数据,导致hdfs小文件过多,出现查询效率很低的情况

问题描述

hive高频写入小数据,导致hdfs小文件过多,出现查询效率很低的情况

分析过程

先复现现象

select count() from ads.ads_sdd_flow_managemlt_to_ids_mm;–15分钟,小文件10983
select max(mm) from ads.ads_sdd_flow_managemlt_to_ids_mm;–6分钟,小文件10983
select count(
) from ads.ads_sdd_flow_managemlt_to_ids_mm_tmp20250214;–1分钟,只有一个文件
select max(mm) from ads.ads_sdd_flow_managemlt_to_ids_mm_tmp20250214;–41秒,只有一个文件
所以查询时间长是因为小文件导致

插入实验

实验证明一次插入都会有一个copy文件生成,ads_sdd_flow_management_result_to_ids_mm写入频率很高,所以小文件很多
在这里插入图片描述

解决方法

使用insert overwrite table插入数据,这样子不会产生很多小文件。


http://www.kler.cn/a/546687.html

相关文章:

  • Qt开发①Qt的概念+发展+优点+应用+使用
  • elementui:element中el-dialog点击关闭按钮清除里面的内容和验证
  • 5 .TCP传输 文件/数据
  • AI在电竞比分网中的主要应用场景
  • python学opencv|读取图像(六十二)使用cv2.morphologyEx()形态学函数实现图像梯度处理
  • html+css设计情人节网页制作主页页面
  • Ai人工智能的未来:趋势、挑战与机遇
  • Go GUI 框架, energy many-browser 示例解读
  • 微信小程序医院挂号系统
  • 或非门组成的SR锁存器真值表相关问题
  • [npm install 报错] Verion 9 of Highlight.js has reached EOL
  • 信息收集-Web应用备案产权Whois反查域名枚举DNS记录证书特征相似查询
  • Oracle VirtualBox虚拟机软件中安装ubuntu
  • elasticsearch 备份恢复步骤
  • synchronized关键字
  • 【第2章:神经网络基础与实现——2.3 多层感知机(MLP)的构建与调优技巧】
  • 小小小病毒(3)(~_~|)
  • java.lang.IllegalArgumentException: 在请求目标中找到无效字符。有效字符在RFC 7230和RFC 3986中定义
  • 初学总结SpringBoot项目在mac上环境搭建和运行
  • 每日一题——最长公共子序列