当前位置: 首页 > article >正文

Spark local模式的安装部署

安装与配置Spark开发环境。

相关知识

Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。SparkUC Berkeley AMP lab(加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代MapReduce的算法。

本关我们来配置一个伪分布式的Spark开发环境,与配置Hadoop类似分为三个步骤:

  1. 下载解压安装包;
  2. 配置环境变量;
  3. 配置Spark环境;
  4. 校验。
下载解压安装包

我们从官网下载好安装包,

接下来解压,在平台已经将spark安装包下载到/opt目录下了,所以不需要再下载了。

 
  1. tar -zxvf spark-2.2.2-bin-hadoop2.7.tgz -C /app

将压缩包解压到/app目录下。

配置环境变量

我们将spark的根目录配置到/etc/profile中(在文件末尾添加)。

 
  1. vim /etc/profile

不要忘了source /etc/profile

修改Spark配置文件

切换到conf目录下:

 
  1. cd /app/spark-2.2.2-bin-hadoop2.7/conf

在这里我们需要配置的是spark-env.sh文件,但是查看目录下文件只发现一个spark-env.sh.template文件,我们使用命令复制该文件并重命名为spark-env.sh即可;

接下来编辑spark-env.sh,在文件末尾添加如下配置:

 
  1. export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_111
  2. export SCALA_HOME=/app/scala-2.12.7
  3. export HADOOP_HOME=/usr/local/hadoop/
  4. export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
  5. export SPARK_MASTER_IP=machine_name # machine_name 根据自己的主机确定
  6. export SPARK_LOCAL_IP=machine_name # machine_name 根据自己的主机确定

参数解释:

参数解释
JAVA_HOMEJava的安装路径
SCALA_HOMEScala的安装路径
HADOOP_HOMEHadoop的安装路径
HADOOP_CONF_DIRHadoop配置文件的路径
SPARK_MASTER_IPSpark主节点的IP或机器名
SPARK_LOCAL_IPSpark本地的IP或主机名

如何查看机器名/主机名呢?

很简单,在命令行输入:hostname即可。

校验

最后我们需要校验是否安装配置成功了; 现在我们启动spark并且运行spark自带的demo

首先我们在spark根目录下启动spark: 在spark的根目录下输入命令./sbin/start-all.sh即可启动,使用jps命令查看是否启动成功,有wokermaster节点代表启动成功。

接下来运行demo

  • Spark根目录使用命令./bin/run-example SparkPi > SparkOutput.txt运行示例程序
  • 在运行的时候我们可以发现打印了很多日志,最后我们使用cat SparkOutput.txt可以查看计算结果(计算是有误差的所以每次结果会不一样):

好了,如果你能到这一步就已经完成了伪分布式Spark的安装啦。


http://www.kler.cn/news/149997.html

相关文章:

  • 【hacker送书第6期】深入理解Java核心技术
  • 什么是计算机病毒?
  • 户外低功耗太阳能板供电无线RTU数据采集支持定时采集各类485接口传感器数据推送数据到第三方平台远程监测系统搭建方案
  • 数据结构算法-分支定界算法
  • 【brpc学习实践四】异步请求案例详解
  • 【分享】Java Helper 与 Utility 类的区别
  • MYSQL基础之【创建数据表,删除数据表】
  • 鸿蒙4.0开发笔记之ArkTS装饰器语法基础@Extend扩展组件样式与stateStyles多态样式(十一)
  • 仿美团外卖源码/在线外卖平台源码PHP/支持多商户+多样化配送费+本土外卖+支持第三方配送
  • 【独家OD2023C卷真题】20天拿下华为OD笔试【贪心】2023C-分配土地最大面积【欧弟算法】全网注释最详细分类最全的华为OD真题题解
  • 网络运维与网络安全 学习笔记2023.11.29
  • 【计算机毕业设计】nodejs+vue音乐播放器系统 微信小程序83g3s
  • J-Flash工具的使用---擦除、烧录及校验
  • NineData:帮助开发者用好数据和云
  • uniapp上架app store详细攻略
  • 人机交互2——任务型多轮对话的控制和生成
  • vue3+ts+vite 打包报错 TS2304: Cannot find name ‘xxx‘
  • 【Vue3】Vue3引入DataV |BIN-DATAV 开发大屏
  • 初刷leetcode题目(11)——数据结构与算法
  • leetCode 841. 钥匙和房间 图遍历 深度优先遍历+广度优先遍历 + 图解
  • XML映射文件
  • 基于UDP的TFTP文件传输
  • 关于X86机器上运行GnuCobol的研究
  • 【Pytorch】Visualization of Feature Maps(5)——Deep Dream
  • Java常见的面试题(很基础那种)
  • 【Java】泛型的简单使用
  • Leetcode(面试题 08.01.)三步问题
  • 【开题报告】海洋多源数据质量控制应用服务的WebServer设计与实现
  • 大数据-之LibrA数据库系统告警处理(ALM-37003 GTM主备不同步或者GTM主备断连)
  • C语言——深入理解指针(3)