大数据原生集群 (Hadoop3.X为核心) 本地测试环境搭建二
本篇安装软件版本
mysql5.6
spark3.2.1-hadoop3.2
presto0.272
zeppelin0.11.2
kafka_2.13_3.7.2
mysql
安装步骤见-》 https://blog.csdn.net/dudadudadd/article/details/110874570
spark
安装步骤见-》https://blog.csdn.net/dudadudadd/article/details/109719624
安装的时候要注意的点如下
:
1、3.x的spark一定要早env中改默认的master-web端口,默认的8080会导致内部资源404
2、3.x的spark和下面的hive3.x一样需要将jars下的guava-14包改个名字,不用自带的,将hadoop中share/hadoop/common/lib/guava-27.0-jre.jar包复制到jars目录下
3、3.x的spark在env文件中指定master的地址时,用的是SPARK_MASTER_HOST,而不再是SPARK_MASTER_IP,这一点一定要注意
presto
安装步骤见-》https://blog.csdn.net/dudadudadd/article/details/109726023 presto安装的时候虽然搭建在hadoop3.0体系上,但并不受影响,正常按照之前的方式配置hive的catalog就行
zeppelin
安装步骤见-》https://blog.csdn.net/dudadudadd/article/details/109719624
安装要注意
:这个版本改动默认spark执行器的配置时,页面上的提示不准,需要正常的设置spark.master=yarn
、spark.submit.deployMode=cluster
才可以
kafka
安装步骤见–》https://blog.csdn.net/dudadudadd/article/details/109679296
需要注意的时较新的kafka版本在操作的时候,已经不再需要--zookeeper zookeeper集群地址
这个配置了,你如果直接使用的话会提示你这个参数已经不再有效了,现在较新的kafka指定自身的bootstrap-server就行,底层在运行的时候会自动识别和处理zookeeper的链接信息,如下
[root@node1 ~]# /opt/kafka2.13_372/bin/kafka-topics.sh --create --bootstrap-server node1:9092 --replication-factor 1 --partitions 1 --topic test
Created topic test.
[root@node1 ~]# /opt/kafka2.13_372/bin/kafka-topics.sh --bootstrap-server node1:9092 --list
test
第一篇https://blog.csdn.net/dudadudadd/article/details/139886344