当前位置: 首页 > article >正文

Sqoop安装部署

Apache Sqoop 简介

Sqoop(SQL-to-Hadoop)是 Apache 开源项目,主要用于:

  • 将关系型数据库中的数据导入 Hadoop 分布式文件系统(HDFS)或相关组件(如 Hive、HBase)。

  • 将 Hadoop 处理后的数据导出回关系型数据库。

 

核心特性

  1. 批量数据传输
    支持从数据库表到 HDFS/Hive 的全量或增量数据迁移。

  2. 并行化处理
    基于 MapReduce 实现并行导入导出,提升大数据量场景的效率。

  3. 自动类型映射
    自动将数据库字段类型转换为 Hadoop 兼容类型(如 INT → IntegerWritable)。

  4. 事务一致性
    保证数据导出到数据库时的原子性(通过 --staging-table 等机制)。

  5. 灵活扩展
    支持自定义插件,适配不同数据库或数据格式(如 Avro、Parquet)。

使用场景

  • 数据仓库构建:将业务数据库数据导入 Hive 进行分析。

  • ETL 流程:配合 Spark、MapReduce 处理后的数据回写至数据库。

  • 日志归档:将历史日志从数据库迁移到 HDFS 长期存储。

 安装与配置

  1. 依赖环境

    • Hadoop 集群(HDFS、YARN)

    • Java 环境(JDK 8+)

    • 目标数据库的 JDBC 驱动(如 MySQL 的 mysql-connector-java.jar

  2. 安装 Sqoop

    • 从 Apache 官网 下载二进制包。

    • 解压并配置环境变量:

tar -zxvf sqoop-1.4.5.bin__hadoop-0.23.tar.gz -C ~/training/

 

 

 找到安装路径为了便于操作修改文件名称

mv sqoop-1.4.5.bin__hadoop-0.23/ sqoop/

 

 

 

设置环境变量
    vi ~/.bash_profile
    SQOOP_HOME=/root/training/sqoop
    export SQOOP_HOME

    PATH=$SQOOP_HOME/bin:$PATH
    export PATH

生效环境变量  
source ~/.bash_profile

 输入 sqoop 按2次 Tab 按键如下所示 安装成功

  • 将数据库 JDBC 驱动复制到 $SQOOP_HOME/lib 目录。

与其他工具对比

工具适用场景特点
Sqoop结构化数据库 ↔ Hadoop批量导入导出,强类型支持
Flume日志流 → HDFS实时流数据传输
Kafka实时数据流高吞吐消息队列

 


http://www.kler.cn/a/598830.html

相关文章:

  • 详解MySQL的事务实现机制
  • Android第五次面试总结(网络篇)
  • linux按照nginx
  • 【MyDB】7-客户端服务端通信之2-Server的实现
  • 【IDEA】热部署SpringBoot项目
  • MySQL 中,聚合函数、连表查询、GROUP BY、ORDER BY、LIMIT 和 HAVING
  • 同旺科技USB to SPI 适配器 ---- 指令之间延时功能
  • 鸿蒙Next性能优化分析
  • 直观理解ECC椭圆曲线加密算法
  • 论文阅读:Self-Supervised Video Defocus Deblurring with Atlas Learning
  • 使用Docker部署RabbitMQ
  • C++基础 [八] - list的使用与模拟实现
  • 服务器上部署springboot项目学习笔记
  • 鸿蒙开发-设置服务卡片数据
  • Lineageos 22.1(Android 15)制定应用强制横屏
  • 【Linux】交叉编译2
  • 第二课,从bp(Burp suite)抓包开始
  • 数据库:一文掌握 Neo4J 的各种指令(Neo4J指令备忘)
  • 创建WebSocket服务器:TouchSocket框架实践
  • 手动配置树莓派wifi联网连接热点手机热点