当前位置: 首页 > article >正文

记录一次Sqoop从MySQL导入数据到Hive问题的排查经过

个人博客地址:记录一次Sqoop从MySQL导入数据到Hive问题的排查经过 | 一张假钞的真实世界

问题描述

MySQL中原始数据有790W+的记录数,在Sqoop抽取作业成功的情况下在Hive中只有500W左右的记录数。

排查过程

数据导入脚本Log

通过Log可以发现以下信息:

  1. 该Sqoop任务被分解为4个MapTask。
  2. MapTask执行期间有异常,是网络异常导致MySQL连接不成功。
  3. Sqoop任务对应的MR执行过程中总的被调起9个MapTask,其中3个失败、2个被kill,理论上剩余的4个MapTask是成功执行的。
  4. Sqoop导入对应的MR只有MapTask,且MapTask的数据记录数为790W+。所以,单纯看MR的输出是正常的。
  5. Sqoop导入完成后,紧跟着有一个读取Sqoop目标表数据的insert overwrite的操作。该操作只被分解为2个MapTask,说明原数据文件只有两个块。
  6. 根据以上信息说明Sqoop之后确实只生成了2个数据文件,有两个文件丢失了。

详细原始Log信息见附件:Sqoop执行日志

查看Sqoop任务对应MR的执行日志

根据上面的Log中的信息,从HDFS上查找对应的日志。Yarn所有的应用执行日志在HDFS的/data/hadoop/yarn-logs/hadoop/logs/目录下。从该目录下查找应用程序application_1533196506314_4460157 的日志。日志会包含MR在各个节点上执行的信息。

从Log中发现以下异常


http://www.kler.cn/a/526066.html

相关文章:

  • React 的 12 个核心概念
  • 如何将DeepSeek部署到本地电脑
  • 模型I/O功能之模型包装器
  • 安卓(android)读取手机通讯录【Android移动开发基础案例教程(第2版)黑马程序员】
  • mysql_init和mysql_real_connect的形象化认识
  • 青少年编程与数学 02-008 Pyhon语言编程基础 07课题、数字
  • 使用Swiper构建运营推荐位
  • 【蓝桥杯省赛真题02】C++猫吃鱼 第十届蓝桥杯青少年创意编程大赛 算法思维 C++编程省赛真题解
  • JAVASE入门十二脚-file,IO流
  • 【DeepSeek-V3】AI Model Evaluation Framework and index schedule AI模型能力评价指标及对比
  • 395. 至少有K个重复字符的最长子串
  • continuous batching、chunked-prefill相关概念
  • springboot3 集成 knife4j(接口文档)
  • 【前端学习路线】前端工程化 详细知识点学习路径(附学习资源)
  • 【 CVE-2025-21298】 通过ghidriff查看完整补丁差异
  • 使用SearchCursor检索要素类中的要素
  • 【深度分析】DeepSeek大模型技术解析:从架构到应用的全面探索
  • Go语言编程基础
  • MySQL基本架构SQL语句在数据库框架中的执行流程数据库的三范式
  • Pyside/Pyqt中QWebEngineView和QWebEnginePage的区别
  • 5.桥模式(Bridge)
  • 《大语言模型》综述学习笔记
  • lanqiaoOJ 2097:青蛙过河 ← 二分+前缀和+贪心
  • Vmware虚拟机内存扩展与管理
  • qt内部的特殊技巧【QT】
  • Python 梯度下降法(二):RMSProp Optimize