当前位置: 首页 > article >正文

Spark SQL 的离线数仓开发

文章目录

  • 1. SparkSQL的离线数仓开发
    • 1.1 Spark SQL 的元数据管理
        • DataFrame数据
        • Hive的映射表
        • Spark的映射表
  • 1.2 配置Spark的metastore服务
    • 1.3 启动服务

1. SparkSQL的离线数仓开发

1.1 Spark SQL 的元数据管理

DataFrame数据

dataframe中的结构化数据管理

dataframe中通过StructType保存管理表的元数据

dataframe中通过Row保存管理行数据


dateframe可以形成一张表

Hive的映射表

在数据仓库中通过映射表管理结构化数据

表元数据 通过hive的metastore管理

表的行数据 通过hdfs的文件进行管理

对映射表进行HiveSQL开发

Spark的映射表

Spark可以将数据转为映射表数据

表的元数据 还是使用metastore管理

表的行数据 使用hdfs的文件进行存储管理

在开发时使用SparkSQL客户端

1.2 配置Spark的metastore服务

将hive的hive-site.xml配置文件拷贝到spark的conf目录下。

 cp /export/server/hive/conf/hive-site.xml /export/server/spark/conf/

1.3 启动服务

  • 启动metastore服务
 nohup hive --service  metastore >> /export/server/hive/metastore.log  2>&1 &
  • 启动thrifserver服务
    • sparkSQL使用thrifserver连接
/export/server/spark/sbin/start-thriftserver.sh --hiveconf hive.server2.thrift.port=10001 --hiveconf hive.server2.thrift.bind.host=node1  --conf spark.sql.warehouse.dir=hdfs://node1:8020/user/hive/warehouse
  • 参数说明
    • hive.server2.thrift.port 指定运行端口号
    • hive.server2.thrift.bind.host 指定运行的服务器
    • spark.sql.warehouse.dir 指定数仓路径

http://www.kler.cn/news/354815.html

相关文章:

  • Java学习之 状态机 机制
  • 一些简单的编程题(Java与C语言)
  • canvas鼠标点击特效
  • 【godot游戏引擎学习笔记】初识界面
  • 【Linux】<互斥量>解决<抢票问题>——【多线程竞争问题】
  • 小程序底部导航按钮实现
  • 执行vue create XXX报错The operation was rejected by your operating system
  • 计算机网络day2
  • matlab的resample函数
  • spring 注解
  • IRP读写函数
  • 八股面试3(自用)
  • 机器学习与神经网络:物理学的新边疆
  • docker 复制文件,清除不再使用数据导出以及导出文件系统
  • 搜维尔科技:力反馈遥操作解决方案,五指灵巧手遥操作解决方案
  • Java初学者的学习顺序
  • 网络基础知识:六大交换机关键知识解析
  • 无人机之遥感影像处理篇
  • 国产 HDMI 发送芯片,兼容 HDMI1.4b 及 HDMI 1.4b 下的视频 3D 传输格式。
  • JavaScript 第9章:面向对象编程