当前位置: 首页 > article >正文

Sqoop源码修改:增加落地HDFS文件数与MapTask数量一致性检查

个人博客地址:Sqoop源码修改:增加落地HDFS文件数与MapTask数量一致性检查 | 一张假钞的真实世界

本篇是对记录一次Sqoop从MySQL导入数据到Hive问题的排查经过的补充。

Sqoop 命令通过 bin 下面的脚本调用,调用如下:

exec ${HADOOP_COMMON_HOME}/bin/hadoop org.apache.sqoop.Sqoop "$@"

org.apache.sqoop.Sqoop 是 Sqoop 的入口类,在此主要是解析参数及初始化工具类,然后通过 org.apache.hadoop.util.ToolRunner 类调用对应的工具完成操作。Sqoop 的 Import 操作对应的是 org.apache.sqoop.tool.ImportTool 类。

在 ImportTool 类的 return 代码前增加以下代码:

int numMappers = options.getNumMappers();

String hDbName = options.getHCatDatabaseName();
String hTableName = options.getHCatTableName();
String hPartKeys = options.getHCatalogPartitionKeys();
String hPartVals = options.getHCatalogPartitionValues();

if(isStringNotEmpty(hDbName) && isStringNotEmpty(hTableName) && isStringNotEmpty(hPartKeys) &&     isStringNotEmpty(hPartVals)) {
  String[] partKeys = hPartKeys.split(",");
  String[] partVals = hPartVals.split(",");

  String partPathStr = "";
  if(partKeys.length > 0 && partVals.length == partKeys.length) {
    for(int i = 0; i < partKeys.length; i++) {
      partPathStr += partKeys[i] + "=" + partVals[i] + "/";
    }
  }

  String targetDir = "/user/hive/warehouse/" + hDbName + ".db/" + hTableName + "/" + partPathStr;
  targetDir = targetDir.toLowerCase();
  LOG.info("---------targetDir=" + targetDir);

  try {
    FileSystem fs = FileSystem.get(options.getConf());
    RemoteIterator<LocatedFileStatus> rIter = fs.listFiles(new Path(targetDir), false);

    int fileCount = 0;
    while(rIter.hasNext()) {
      fileCount++;
      rIter.next();
    }

    LOG.info("---------------fileCount=" + fileCount);

    if(numMappers != fileCount) {
      LOG.error("files number in hdfs not equals mapper task number !");
      return 2;
    }
  } catch (IOException e) {
    LOG.error("count files number from hdfs error !");
    e.printStackTrace();
    return 3;
  }
}

改动只针对 Sqoop 集成 HCatalog 方式导入 ORC 格式的情况。因为我们的数据仓库中都采用的是这种方式。

优化:当 MySQL 中记录数特别少时,如少于 4 条记录,则默认 Sqoop 的 MapTask 数量为 4 但其实际执行时因为原始记录数不够则实际执行的 MapTask 数量会跟实际的记录数一致,此时 split 数量跟落地 HDFS 的文件数量一致。所以,可以根据 Sqoop 对应 MR 的实际 split 数量进行判断文件数量。


http://www.kler.cn/a/526103.html

相关文章:

  • 【安全测试】测开方向学习遇到的问题记录
  • Python练习(2)
  • YOLOv11-ultralytics-8.3.67部分代码阅读笔记-head.py
  • 【C++】特殊类设计
  • Julia 之 @btime 精准测量详解
  • 再见了流氓软件~~
  • [Java]泛型(二)泛型方法
  • AJAX综合案例——图书管理
  • 01-时间与管理
  • DeepSeek-R1 论文解读:强化学习如何 “炼” 出超强推理模型?
  • 使用 Context API 管理临时状态,避免 Redux/Zustand 的持久化陷阱
  • Web-3.0学习路线
  • Python学习之旅:进阶阶段(六)数据结构-有序字典(collections.OrderedDict)
  • 单片机串口打印printf函数显示内容(固件库开发)
  • 蓝桥云客 好数
  • 【Numpy核心编程攻略:Python数据处理、分析详解与科学计算】1.24 随机宇宙:生成现实世界数据的艺术
  • DeepSeek r1本地安装全指南
  • Java中运行Python程序
  • vscode+WSL2(ubuntu22.04)+pytorch+conda+cuda+cudnn安装系列
  • Rust语言进阶之chain用法实例(九十七)
  • 爱快 IK-W35 面板式AP 简单开箱评测和拆解,双频WiFi6 AX3000,2.5G网口
  • 2025年1月22日(网络编程)
  • 数据结构实战之线性表(三)
  • 多目标优化策略之一:非支配排序
  • 前端axios拦截器
  • 短链接项目02---依赖的添加和postman测试