当前位置：首页 > article >正文

hive tez使用小文件合并参数后，单个文件大小大于128MB

article 2025/3/7 4:21:15

在 Hive on Tez 中配置小文件合并参数后，若最终生成的文件仍大于预期值（128MB），通常由以下原因导致：

set hive.merge.tezfiles=true;
set hive.merge.smallfiles.avgsize=128000000;
set hive.merge.size.per.task=128000000;

一、核心参数机制解析

参数生效阶段
- hive.merge.tezfiles=true：仅在 Tez Reduce任务结束后 触发文件合并（Output阶段），不处理Map阶段生成的文件。
- hive.merge.size.per.task=128MB：控制单个合并任务（Hive Merging Task）的输出文件大小，并非最终文件上限。
关键矛盾点
- 上游任务输出过大：若Reduce任务输出的原始文件（如 000000_0）本身已超过128MB，合并任务不会拆分这些大文件，直接保留原文件。

二、问题根源诊断

场景1：Reduce任务数过少

-- 示例：若总数据量=1GB，且设置
SET hive.exec.reducers.bytes.per.reducer=512000000; -- 512MB/Reducer

结果：仅生成2个Reduce输出文件（每个512MB），合并任务不会拆分已超过128MB的文件，最终输出仍为2个512MB文件。

场景2：数据倾斜

某几个Reduce任务处理大量数据（如单个Reducer输出300MB），合并任务无法拆分这些大文件。

场景3：合并任务并行度不足

合并操作由独立Job执行，若 tez.grouping.max-size=256MB（默认），合并任务会将小于256MB的相邻文件合并，可能生成大于128MB的文件。

三、解决方案

1. 控制上游Reduce输出大小

-- 强制限制每个Reduce任务处理的数据量
SET hive.exec.reducers.bytes.per.reducer=128000000; -- 128MB/Reducer
SET hive.exec.reducers.max=500; -- 避免Reduce数过多

👉 效果：确保Reduce阶段输出的原始文件均≤128MB，合并任务会按需合并。

2. 启用Map阶段合并（可选）

-- 合并Map输出的小文件
SET hive.merge.mapfiles=true; 
SET hive.merge.mapredfiles=true;

👉 适用场景：Map任务生成大量小文件（如动态分区插入）。

3. 调整合并任务策略

-- 降低合并任务的最大分组阈值
SET tez.grouping.max-size=128000000; -- 128MB
SET tez.grouping.min-size=64000000;  -- 64MB

👉 原理：强制合并任务将大于128MB的文件拆分成多段处理。

4. 数据倾斜治理

-- 对倾斜Key添加随机后缀打散
SELECT 
  user_id,
  CONCAT(cast(rand()*10 AS INT), '_', user_id) AS salted_key 
FROM skewed_table
DISTRIBUTE BY salted_key;

👉 适用场景：因Key倾斜导致单个Reduce任务输出过大。

四、验证与调试

检查Reduce输出文件

hdfs dfs -ls /user/hive/warehouse/table/dt=20231001/ | awk '{print $5}'

若存在文件 >128MB，需调整 hive.exec.reducers.bytes.per.reducer

分析合并任务日志

-- 查看合并任务生成的最终文件数
EXPLAIN EXTENDED INSERT OVERWRITE TABLE target ...;

检查 Hive Merging Task 的 Number of files created

参数配置最佳实践

-- 完整参数模板
SET hive.merge.tezfiles=true;
SET hive.merge.smallfiles.avgsize=128000000;
SET hive.merge.size.per.task=128000000;
SET hive.exec.reducers.bytes.per.reducer=128000000;
SET tez.grouping.max-size=128000000;
SET hive.merge.mapfiles=true; -- 如需合并Map输出