当前位置：首页 > article >正文

hive高频写入小数据，导致hdfs小文件过多，出现查询效率很低的情况

article 2025/2/19 16:29:27

问题描述

hive高频写入小数据，导致hdfs小文件过多，出现查询效率很低的情况

分析过程

先复现现象

select count() from ads.ads_sdd_flow_managemlt_to_ids_mm;–15分钟，小文件10983
select max(mm) from ads.ads_sdd_flow_managemlt_to_ids_mm;–6分钟，小文件10983
select count() from ads.ads_sdd_flow_managemlt_to_ids_mm_tmp20250214;–1分钟，只有一个文件
select max(mm) from ads.ads_sdd_flow_managemlt_to_ids_mm_tmp20250214;–41秒，只有一个文件
所以查询时间长是因为小文件导致

插入实验

实验证明一次插入都会有一个copy文件生成，ads_sdd_flow_management_result_to_ids_mm写入频率很高，所以小文件很多
在这里插入图片描述

解决方法

使用insert overwrite table插入数据，这样子不会产生很多小文件。

http://www.kler.cn/a/546687.html

相关文章：

Qt开发①Qt的概念+发展+优点+应用+使用

elementui：element中el-dialog点击关闭按钮清除里面的内容和验证

5 .TCP传输文件/数据

AI在电竞比分网中的主要应用场景

python学opencv|读取图像（六十二）使用cv2.morphologyEx()形态学函数实现图像梯度处理

html+css设计情人节网页制作主页页面

Ai人工智能的未来：趋势、挑战与机遇

Go GUI 框架, energy many-browser 示例解读

微信小程序医院挂号系统

或非门组成的SR锁存器真值表相关问题

[npm install 报错] Verion 9 of Highlight.js has reached EOL

信息收集-Web应用备案产权Whois反查域名枚举DNS记录证书特征相似查询

Oracle VirtualBox虚拟机软件中安装ubuntu

elasticsearch 备份恢复步骤

synchronized关键字

【第2章：神经网络基础与实现——2.3 多层感知机（MLP）的构建与调优技巧】

小小小病毒（3）（~_~|)

java.lang.IllegalArgumentException: 在请求目标中找到无效字符。有效字符在RFC 7230和RFC 3986中定义

初学总结SpringBoot项目在mac上环境搭建和运行

每日一题——最长公共子序列