当前位置: 首页 > article >正文

Spark SQL大数据分析快速上手-完全分布模式安装

【图书介绍】《Spark SQL大数据分析快速上手》-CSDN博客

《Spark SQL大数据分析快速上手》【摘要 书评 试读】- 京东图书

大数据与数据分析_夏天又到了的博客-CSDN博客

Hadoop完全分布式环境搭建步骤-CSDN博客,前置环境安装参看此博文

完全分布模式也叫集群模式。将Spark目录文件分发到其他主机并配置workers节点,即可快速配置Spark集群(需要先安装好JDK并配置好从Master到Worker的SSH信任)。具体步骤   如下:

【免费送书活动】《Spark SQL大数据分析快速上手》-CSDN博客

 步骤1: 配置计划表。

                 集群主机配置如表2-1所示。所有主机在相同目录下安装JDK,Spark安装到所有主机的相同目录下,如/app/。

 步骤2: 准备3台Linux虚拟机搭建集群环境。

                 这里推荐直接使用下面链接讲解的、配置好的Hadoop完全分布式环境,稍微做些修改,即可快速搭建Spark完全分布模式环境。

Hadoop完全分布式环境搭建步骤_hadoop 开发环境搭建及hdfs初体验-CSDN博客

 步骤3: 解压并配置Spark。

                 在server101上解压Spark:

$ tar -zxvf ~/spark-3.3.1-bin-hadoop3.tgz -C /app/

$ mv spark-3.3.1-bin-hadoop3 spark-3.3.1

                 修改spark-env.sh文件,在文件最开始添加JAVA_HOME环境变量:

$ vim /app/spark-3.3.1/sbin/spark-conf.sh

export JAVA_HOME=/usr/java/jdk1.8.0-361

                 修改worker文件,添加所有主机在worker节点上的名称:

$ vim /app/spark-3.3.1/conf/workers

server101

server102

server103

                 使用scp将Spark目录分发到所有主机相同的目录下:

$ scp -r /app/spark-3.3.1  server102:/app/

$ scp -r /app/spark-3.3.1  server103:/app/
 步骤4: 启动Spark。

                 在主Spark上执行start-all.sh:

$ /app/spark-3.3.1/sbin/start-all.sh

                 启动完成以后,查看master主机的8080端口,如图2-8所示。

 步骤5: 测试。

                 由于已经配置了Hadoop集群,并且与Spark的worker节点在相同的主机上,因此在集群环境下,一般是访问HDFS上的文件:

$spark-shell --master spark://server101:7077

scala> val rdd1 = sc.textFile(“hdfs://server101:8082/test/a.txt”);

图2-8  master主机的8080端口

                 将结果保存到HDFS,最后查看HDFS上的计算结果即可:

scala> rdd1.flatMap(_.split("\\s+")).map((_,1)).reduceByKey(_+_). saveAsTextFile("hdfs://server101:8020/out004");


http://www.kler.cn/a/402505.html

相关文章:

  • android 性能分析工具(03)Android Studio Profiler及常见性能图表解读
  • 2024 java大厂面试复习总结(一)(持续更新)
  • Mysql 字符集和查询区分大小写影响
  • 使用树莓派安装shairport-sync使老音响变身AirPlay音响
  • Mac配置maven环境及在IDEA中配置Maven
  • 云计算-华为HCIA-学习笔记
  • LLM( Large Language Models)典型应用介绍 1 -ChatGPT Large language models
  • 3_Flink CDC
  • Eagle-OJ 开源的在线编程训练平台
  • Mybatis框架之适配器模式 (Adapter Pattern)
  • ReactPress:基于pnpm的Mono Repository方案介绍
  • Docker用法详解
  • Docker-Compose 快速部署安装 Nginx 或其他应用
  • uniapp页面样式和布局和nvue教程详解
  • 2020 年 9 月青少年软编等考 C 语言三级真题解析
  • Django实现智能问答助手-进一步完善
  • Go(java基础)
  • AI 赋能电商的未来:购物推荐、会员分类与智能定价的创新实践
  • 2. SpringBoot + MQTT 门禁设备对接实战
  • Kafka Stream实战教程
  • 深入解析小程序组件:view 和 scroll-view 的基本用法
  • 测试使用vite搭建的uni-app打包app区分开发环境和生产环境
  • linux 中mysql查看慢日志
  • 51c自动驾驶~合集31
  • 用Rust中byteorder包高效处理字节序列
  • 第二十二章 Spring之假如让你来写AOP——Target Object(目标对象)篇