当前位置：首页 > article >正文

Spark SQL 的离线数仓开发

article 2024/12/31 4:32:13

文章目录

1. SparkSQL的离线数仓开发
- 1.1 Spark SQL 的元数据管理
- - - DataFrame数据
    - Hive的映射表
    - Spark的映射表
1.2 配置Spark的metastore服务
- 1.3 启动服务

1. SparkSQL的离线数仓开发

1.1 Spark SQL 的元数据管理

DataFrame数据

dataframe中的结构化数据管理

dataframe中通过StructType保存管理表的元数据

dataframe中通过Row保存管理行数据

dateframe可以形成一张表

Hive的映射表

在数据仓库中通过映射表管理结构化数据

表元数据通过hive的metastore管理

表的行数据通过hdfs的文件进行管理

对映射表进行HiveSQL开发

Spark的映射表

Spark可以将数据转为映射表数据

表的元数据还是使用metastore管理

表的行数据使用hdfs的文件进行存储管理

在开发时使用SparkSQL客户端

1.2 配置Spark的metastore服务

将hive的hive-site.xml配置文件拷贝到spark的conf目录下。

 cp /export/server/hive/conf/hive-site.xml /export/server/spark/conf/

1.3 启动服务

启动metastore服务

 nohup hive --service  metastore >> /export/server/hive/metastore.log  2>&1 &

启动thrifserver服务
- sparkSQL使用thrifserver连接

/export/server/spark/sbin/start-thriftserver.sh --hiveconf hive.server2.thrift.port=10001 --hiveconf hive.server2.thrift.bind.host=node1  --conf spark.sql.warehouse.dir=hdfs://node1:8020/user/hive/warehouse

参数说明
- hive.server2.thrift.port 指定运行端口号
- hive.server2.thrift.bind.host 指定运行的服务器
- spark.sql.warehouse.dir 指定数仓路径

查看全文

http://www.kler.cn/a/354815.html

【免费分享】mysql笔记，涵盖查询、缓存、存储过程、索引，优化。

小程序配置文件 —— 12 全局配置 - pages配置

信息化时代的步伐

Spring Boot教程之三十九：使用 Maven 将 Spring Boot 应用程序 Docker 化

10 无穷级数的和函数

Redis 安装部署[主从、哨兵、集群]（windows版）

Java学习之状态机机制

一些简单的编程题（Java与C语言）

canvas鼠标点击特效

【godot游戏引擎学习笔记】初识界面

【Linux】＜互斥量＞解决＜抢票问题＞——【多线程竞争问题】

小程序底部导航按钮实现

执行vue create XXX报错The operation was rejected by your operating system

计算机网络day2

matlab的resample函数

spring 注解

IRP读写函数

八股面试3（自用）

机器学习与神经网络：物理学的新边疆

docker 复制文件，清除不再使用数据导出以及导出文件系统

搜维尔科技：力反馈遥操作解决方案，五指灵巧手遥操作解决方案

Java初学者的学习顺序

网络基础知识：六大交换机关键知识解析

无人机之遥感影像处理篇

国产 HDMI 发送芯片，兼容 HDMI1.4b 及 HDMI 1.4b 下的视频 3D 传输格式。

JavaScript 第9章：面向对象编程