当前位置: 首页 > article >正文

HDFS迁移distcp,源端数据新增,致迁移失败处理

hdfs迁移最常用的就是distcp,从老集群迁移到新集群。

distcp hdfs://xxxx源端 hdfs://xxx目标端

默认他会进行CRC校验,如果此时出现了数据新增,那么迁移一定会失败,在业务没有割接前,我们通常只是迁移历史数据,所以不需要校验,那就得加上-skipcrccheck

distcp -skipcrccheck hdfs://xxxx源端 hdfs://xxx目标端

这样他就不会去对比源端是否在迁移过程中变更,等业务交接完,停止源端,再迁移增量数据即可


在Hadoop的HDFS(分布式文件系统)中,-skipcrccheck 命令用于在读取数据时跳过CRC(循环冗余检查)检查。CRC是一种用于检测数据在存储或传输过程中是否发生变更的方法。在某些情况下,比如数据已知是正确的,或者你确定不需要CRC检查的精确性,你可能想要跳过这个步骤以加快读取速度。


http://www.kler.cn/a/504292.html

相关文章:

  • python3GUI--大屏可视化-XX产业大数据指挥舱(附下载地址) By:PyQt5
  • LeetCode:39. 组合总和
  • FLASK创建下载
  • No.1|Godot|俄罗斯方块复刻|棋盘和初始方块的设置
  • 自动生成数据:SQLark 让数据测试更高效
  • 自定义封装进度条标签
  • 设计模式 行为型 责任链模式(Chain of Responsibility Pattern)与 常见技术框架应用 解析
  • JS后盾人--再一次的走进JS?
  • STM32程序发生异常崩溃时,怎样从串口输出当时的程序调用栈等信息
  • LangChain学习笔记2 Prompt 模板
  • 21_Spring Boot缓存注解介绍
  • 【Go】Go Gin框架初识(一)
  • 从零开始:在服务器上部署大模型并集成到 vscode +Cline使用
  • LLaMa-3 8B + 蒙特卡洛树 约等于 GPT-4
  • 常用的前端4种请求方式
  • 《拉依达的嵌入式\驱动面试宝典》—Linux篇(二)_uboot
  • RocketMQ 知识速览
  • PySide6的资源文件(.qrc 文件)简介以及RCC工具
  • ssm旅游攻略网站设计+jsp
  • 深入理解循环神经网络(RNN):原理、应用与挑战