当前位置: 首页 > article >正文

伪分布式Spark3.4.4安装

参考:Spark2.1.0入门:Spark的安装和使用_厦大数据库实验室博客

我的版本:

hadoop 3.1.3

hbase 2.2.2

java openjdk version "1.8.0_432"

问了chatgpt,建议下载Spark3.4.4,不适合下载Spark 2.1.0:

step1

Spark下载网址:Downloads | Apache Spark

下载spark-3.4.4-bin-hadoop3.tgz,下载的文件,默认会被浏览器保存在“/home/hadoop/下载”目录下。

按照教程来,注意文件名的不同,我在输入指令的时候有些是错误的,注意甄别:

编辑spark-env.sh文件(vim ./conf/spark-env.sh),在第一行添加以下配置信息:

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)

vim中编辑后:

  有了上面的配置信息以后,Spark就可以把数据存储到Hadoop分布式文件系统HDFS中,也可以从HDFS中读取数据。如果没有配置上面信息,Spark就只能读写本地数据,无法读写HDFS数据。
配置完成后就可以直接使用,不需要像Hadoop运行启动命令。
  通过运行Spark自带的示例,验证Spark是否安装成功。

cd /usr/local/spark
bin/run-example SparkPi

执行时会输出非常多的运行信息,输出结果不容易找到,可以通过 grep 命令进行过滤(命令中的 2>&1 可以将所有的信息都输出到 stdout 中,否则由于输出日志的性质,还是会输出到屏幕中):

bin/run-example SparkPi 2>&1 | grep "Pi is"

这里涉及到Linux Shell中管道的知识,详情可以参考Linux Shell中的管道命令
过滤后的运行结果如下图示,可以得到π 的 5 位小数近似值:

启动spark-shell环境:

bin/spark-shell


http://www.kler.cn/a/538516.html

相关文章:

  • Swift的方法派发机制
  • Maven Profile 配置:支持不同环境的构建
  • 打家劫舍3
  • kafka消费端之分区分配策略
  • Docker 部署 MinIO | 国内阿里镜像
  • 在 C++ 中使用 Protocol Buffers(protobuf)
  • webview_flutter的使用
  • Vite 代理下的 POST 请求跨域问题排查与解决方案
  • 搭建linux qt5.6环境
  • RabbitMQ 从入门到精通:从工作模式到集群部署实战(五)
  • vue封装组件进阶
  • Visual Basic语言的区块链
  • Unity做2D小游戏2------创建地形和背景
  • Spring Boot的常用注解
  • 光伏-报告显示,假期内,硅料端签单顺序发货相对稳定。若3月份下游存提产,则不排除硅料价格有上调预期。
  • Java怎么记录网络安全情报 java转网络安全
  • 微服务日志查询难解决方案-EFK
  • 增加工作台菜单页面,AI问答应用支持上下文设置,数据库表索引优化,zyplayer-doc 2.4.8 发布啦!
  • deepseek+kimi自动生成ppt
  • 【信奥赛CSP-J 需要掌握的STL知识有哪些?】
  • 【HarmonyOS NEXT】systemDateTime 时间戳转换为时间格式 Date,DateTimeFormat
  • C# ASP.NET程序与 Web services 编程介绍
  • Python实现机器学习小项目教程案例
  • Ollama 部署 DeepSeek-R1 及Open-WebUI
  • 响应式编程库Reactor(一)
  • USB枚举过程及Linux下U盘识别流程