当前位置：首页 > article >正文

Ubuntu上安装Apache Spark

article 2025/1/9 9:51:58

在Ubuntu上安装Apache Spark的步骤如下：

1. 安装Java

Spark是用Scala编写的，并且依赖Java。因此，首先需要安装Java。

安装OpenJDK 8（或更高版本）

执行以下命令安装OpenJDK：

sudo apt update
sudo apt install openjdk-8-jdk

你可以通过运行以下命令检查Java版本，确保安装成功：

java -version

输出应该显示Java版本信息，例如：

openjdk version "1.8.0_292"

如果没有安装Java 8，你可以选择其他版本（例如OpenJDK 11或OpenJDK 17），但Spark推荐使用Java 8。

2. 安装Scala（可选）

Spark使用Scala作为其默认编程语言，因此最好安装Scala。不过，如果你打算使用PySpark（Python API）或Spark的其他语言API，Scala并不是必须的。

如果你想安装Scala，可以执行以下命令：

sudo apt install scala

3. 下载并安装Spark

访问Apache Spark官网并选择你想要的Spark版本。这里选择一个预编译版本（例如，Spark 3.x版本），并选择与Hadoop兼容的版本。如果你不打算使用Hadoop，可以选择不带Hadoop的版本。
使用wget命令下载Spark：

wget https://dlcdn.apache.org/spark/spark-3.3.1/spark-3.3.1-bin-hadoop3.2.tgz

（请确保根据实际版本修改URL）

解压下载的文件：

tar -xvzf spark-3.3.1-bin-hadoop3.2.tgz

将Spark移动到一个常用目录，比如/opt：

sudo mv spark-3.3.1-bin-hadoop3.2 /opt/spark

4. 配置环境变量

为确保可以从命令行使用Spark，你需要设置环境变量。

编辑~/.bashrc文件：

nano ~/.bashrc

添加以下行到文件的末尾：

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
export PYSPARK_PYTHON=python3

使更改生效：

source ~/.bashrc

5. 配置Spark（可选）

如果需要，您可以进一步配置Spark。Spark的默认配置文件通常位于$SPARK_HOME/conf目录下，您可以复制一份模板配置文件并进行自定义配置。

复制模板配置文件：

cd $SPARK_HOME/conf
cp spark-env.sh.template spark-env.sh

编辑$SPARK_HOME/conf/spark-env.sh，根据需要配置Spark环境，例如设置Java和Hadoop的路径。

nano $SPARK_HOME/conf/spark-env.sh

添加或修改如下内容：

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export SPARK_MASTER_HOST=localhost

6. 启动Spark

Spark包含两个主要进程：Spark Master和Spark Worker。你可以通过start-master.sh和start-worker.sh启动它们。

启动Spark Master：

$SPARK_HOME/sbin/start-master.sh

启动Spark Worker（默认连接到Master）：

$SPARK_HOME/sbin/start-worker.sh spark://localhost:7077

此时，Spark Master会在localhost:8080上启动Web UI，你可以在浏览器中访问它查看集群状态。

7. 启动Spark Shell

Spark还提供了交互式的命令行工具。如果你想使用Scala Shell，可以运行以下命令：

$SPARK_HOME/bin/spark-shell

如果你想使用Python（PySpark），可以运行：

$SPARK_HOME/bin/pyspark

8. 配置Spark为系统服务（可选）

如果你希望Spark在启动时自动启动，可以配置Spark作为系统服务。下面是基本的配置步骤。

创建一个新的systemd服务文件：

sudo nano /etc/systemd/system/spark.service

在文件中添加以下内容：

[Unit]
Description=Apache Spark
After=network.target

[Service]
Type=simple
User=your_user
ExecStart=/opt/spark/sbin/start-all.sh
ExecStop=/opt/spark/sbin/stop-all.sh
Restart=on-failure

[Install]
WantedBy=multi-user.target

重新加载systemd服务，并启用它：

sudo systemctl daemon-reload
sudo systemctl enable spark
sudo systemctl start spark

9. 检查Spark安装是否成功

在浏览器中访问Spark Master的Web UI：

http://localhost:8080

如果可以看到Spark Master的状态页面，说明Spark安装成功。

总结

现在你已经在Ubuntu上成功安装并配置了Apache Spark。你可以通过Spark Shell、PySpark或提交Spark作业来开始使用Spark。如果你需要运行集群模式，建议设置多个Spark节点。

查看全文

http://www.kler.cn/a/472788.html

Java语法总结

【SQL】掌握SQL查询技巧：数据分组与排序

[python3]Excel解析库-xlwt

PostgreSQL学习笔记（二）：PostgreSQL基本操作

Android存储方案对比（SharedPreferences 、 MMKV 、 DataStore）

ECharts系列：echart中折线图折线设置不平滑显示

Kivy App开发之UX控件DropDown下拉列表

【Python】OpenAI：调用深度求索（DeepSeek）API

三峡国际与葡萄牙电力（EDP）联合考察团调研稳石氢能，AEM低成本制氢技术获关注。

js获取当前浏览器地址，ip，端口号等等

F#语言的软件工程

C#用winform窗口程序操作服务+不显示Form窗体，只显示右下角托盘图标+开机时自启动程序【附带项目地址】

【Spring】Spring实现加法计算器和用户登录

SQL进阶实战技巧：如何利用 Oracle SQL计算线性回归置信区间？

广西钦州刘永福故居钦江爆破振动自动化监测

雅思口语话题之住所和学习工作

现代密码学期末重点（备考ing）

chrome浏览器的更新提示弹窗无法更新Chrome解决方法

Android实战经验篇-增加系统分区

智慧农业应用场景｜珈和科技高标准农田信息化监管平台解决方案

后端服务集成ElasticSearch搜索功能技术方案

Java 后端开发常用的技术栈

嵌入式软件C语言面试常见问题及答案解析（三）

ARM V7 A架构指令集：聚焦分支指令

Nginx实现接口复制

MDX语言的计算机基础