当前位置：首页 > article >正文

spark-sql建表数据同步到hive

article 2024/10/7 1:05:57

1、基础环境

组件	版本	备注
hadoop	3.4.0	官方下载
hive	3.1.3	自编译
spark	spark-3.5.3-bin-hadoop3	官方下载，需要内置hive的jar相关内容
paimon	0.9.0	Maven官方下载
jdk	1.8.0_41
maven	3.9.6	固定版本

2、停止服务、清理日志

先停止，清理数据

sudo kill -9 $(ps -ef|grep hadoop|gawk '$0 !~/grep/ {print $2}' |tr -s '\n' ' ')
sudo kill -9 $(ps -ef|grep spark|gawk '$0 !~/grep/ {print $2}' |tr -s '\n' ' ')
sudo kill -9 $(ps -ef|grep hive|gawk '$0 !~/grep/ {print $2}' |tr -s '\n' ' ')
sudo kill -9 $(ps -ef|grep hive|gawk '$0 !~/grep/ {print $2}' |tr -s '\n' ' ')
sudo kill -9 $(ps -ef|grep flink|gawk '$0 !~/grep/ {print $2}' |tr -s '\n' ' ')
sudo kill -9 $(ps -ef|grep topsa|gawk '$0 !~/grep/ {print $2}' |tr -s '\n' ' ')
sudo kill -9 $(ps -ef|grep topsec|gawk '$0 !~/grep/ {print $2}' |tr -s '\n' ' ')
rm -rf /cluster/hadoop3/logs/*
rm -rf /cluster/hadoop3/logs/*
rm -rf /cluster/spark/logs/*
rm -rf /cluster/hive/logs/*
rm -rf /cluster/*.log
rm -rf /cluster/hadoop3/data/*
rm -rf /tmp/*

3、格式化Hadoop并启动

/cluster/hadoop3/bin/hdfs namenode -format
/cluster/hadoop3/sbin/start-all.sh

4、启动spark

/cluster/spark/sbin/start-all.sh

5、启动Hive服务

nohup /cluster/hive/bin/hivemetastore2 > 2a.log &
nohup /cluster/hive/bin/hiveserver2 > 2b.log &

6、Hdfs上创建存储目录

/cluster/hadoop3/bin/hdfs dfs -mkdir -p /spark-eventLog
/cluster/hadoop3/bin/hdfs dfs -mkdir -p /paimon/warehouse/example

7、启动spark-sql

/cluster/spark/bin/spark-sql --jars /cluster/lib/paimon-spark-3.5-0.9.0.jar --conf spark.sql.catalog.paimon=org.apache.paimon.spark.SparkCatalog --conf spark.sql.catalog.paimon.metastore=hive --conf spark.sql.catalog.paimon.uri=thrift://10.10.10.99:9083 --conf spark.sql.catalog.paimon.warehouse=hdfs://10.10.10.99:8020/paimon/warehouse/hive-paimon --conf spark.sql.extensions=org.apache.paimon.spark.extensions.PaimonSparkSessionExtensions --conf spark.serializer=org.apache.spark.serializer.KryoSerializer

8、使用paimon创建数据库、数据表

-- 切换到paimon catalog
USE paimon;

-- 在已建立的paimon catalog中，建立数据库。
CREATE DATABASE my_db;
USE my_db;

-- 建立Paimon表。
CREATE TABLE my_table (
uuid int,
name string,
height double,address string
) TBLPROPERTIES (
'primary-key' = 'uuid'
);

9、插入数据

-- 向Paimon中写入数据。
INSERT INTO paimon.my_db.my_table VALUES (1, 'M', 173.5,'北京市朝阳区'), (2, 'G',185, '上海市'), (3, 'cherry', 168.0,'河北省秦皇岛市');

10、在hive中查看数据

/cluster/hive/bin/beeline
!connect jdbc:hive2://10.10.10.99:10000

输入用户名和密码

备注需要将将paimon-hive-connector-3.1-0.9.0.jar上传到hive的lib目录下/cluster/hive/lib

否则，查询执行select的时候会报错。

使用show databases; show tables 相关命令可以查询数据库和表