当前位置：首页 > article >正文

使用 IntelliJ IDEA 编写 Spark 应用程序（Scala + Maven）

article 2025/2/21 3:45:14

使用 IntelliJ IDEA 编写 Spark 应用程序（Scala + Maven）

本教程演示如何使用 IntelliJ IDEA 和 Maven 编写 Spark 应用程序（以 WordCount 程序为例）。运行环境为 Ubuntu 16.04。

环境准备

安装 IntelliJ IDEA
（1）从 IntelliJ IDEA 官网下载安装包。
（2）解压安装包并重命名：

cd ~/下载
sudo tar -zxvf ideaIU-2016.3.4.tar.gz
sudo mv idea-IU-163.12024.16 /usr/local/Intellij

（3）运行 IDEA：

cd /usr/local/Intellij/bin
./idea.sh

（4）选择 Evaluate for free 使用试用版。
（5）为快捷启动创建桌面图标：

cd /usr/share/applications
sudo gedit idea.desktop

在文件中添加以下内容：

[Desktop Entry]
Encoding=UTF-8
Version=1.0
Name=IntelliJ IDEA
GenericName=Java IDE
Comment=IntelliJ IDEA is a code-centric IDE focused on developer productivity.
Exec=/usr/local/Intellij/bin/idea.sh
Icon=/usr/local/Intellij/bin/idea.png
Terminal=false
Type=Application
Categories=Development;IDE

（6）重启系统后，可在启动栏中搜索 IntelliJ IDEA。

配置 IntelliJ IDEA
安装 Scala 插件
（1）打开 IDEA，依次选择 File -> Settings -> Plugins。
（2）点击 Install JetBrains Plugin，搜索并安装 Scala 插件。
配置 JDK 和 Scala SDK
（1）打开 File -> Project Structure。
配置 JDK：
（2）点击左侧 SDKs，添加系统安装的 JDK（假设已安装并配置 Java 环境）。
（3）配置 Scala SDK：
添加已安装的 Scala，并选择 Copy to Project Libraries。
创建 Maven 工程文件
新建工程
在 IDEA 主界面选择 Create New Project。
选择 Maven，点击下一步。
填写 GroupId 和 ArtifactId，例如：
GroupId: dblab
ArtifactId: WordCount
配置项目路径，点击 Finish。
配置工程
添加 Scala 框架
右键工程名称，选择 Add Framework Support。
勾选 Scala，点击 OK。
设置 Sources Root
在 src 文件夹下创建名为 WordCount 的子文件夹。
右键该文件夹，选择 Mark Directory as -> Sources Root。
编写代码
创建 Scala 文件
（1）在 WordCount 文件夹中右键，选择 New -> Scala Class，创建名为 WordCount 的 object 类型文件。
（2）粘贴以下代码

import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf

object WordCount {
  def main(args: Array[String]) {
    val inputFile = "file:///usr/local/spark/mycode/wordcount/word.txt"
    val conf = new SparkConf().setAppName("WordCount").setMaster("local")
    val sc = new SparkContext(conf)
    val textFile = sc.textFile(inputFile)
    val wordCount = textFile.flatMap(line => line.split(" "))
      .map(word => (word, 1))
      .reduceByKey((a, b) => a + b)
    wordCount.foreach(println)
  }
}

配置 pom.xml
（1）清空 pom.xml 内容，粘贴以下代码：

<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>
    <groupId>dblab</groupId>
    <artifactId>WordCount</artifactId>
    <version>1.0-SNAPSHOT</version>
    <properties>
        <spark.version>2.1.0</spark.version>
        <scala.version>2.11</scala.version>
    </properties>
    <dependencies>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_${scala.version}</artifactId>
            <version>${spark.version}</version>
        </dependency>
    </dependencies>
    <build>
        <plugins>
            <plugin>
                <groupId>org.scala-tools</groupId>
                <artifactId>maven-scala-plugin</artifactId>
                <version>2.15.2</version>
                <executions>
                    <execution>
                        <goals>
                            <goal>compile</goal>
                            <goal>testCompile</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>
            <plugin>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.6.0</version>
                <configuration>
                    <source>1.8</source>
                    <target>1.8</target>
                </configuration>
            </plugin>
        </plugins>
    </build>
</project>

（2）右键项目名称，选择 Maven -> Reload Project。

运行程序
运行 WordCount
（1）打开 WordCount.scala 文件，在代码窗口内右键选择 Run ‘WordCount’。

（2）确保输入文件路径 /usr/local/spark/mycode/wordcount/word.txt 存在，文件内容示例：

hello world
hello Hadoop

（3）查看终端输出，结果类似：

(hello, 2)
(world, 1)
(Hadoop, 1)

打包为 Jar 文件
导出 Jar 包

（1）打开 File -> Project Structure。

（2）选择 Artifacts -> + -> Jar -> From modules with dependencies。

（3）选择 Main Class 为 WordCount。

（4）删除不必要的文件，只保留 WordCount.jar 和 ‘WordCount’ compile output。

（5）点击 Apply 和 OK。

（6）导出 Jar 文件：

Build -> Build Artifacts -> Build。
导出的 Jar 包存储在out/artifacts/WordCount_jar/WordCount.jar。

提交到 Spark 集群运行
（1）将 Jar 包复制到指定路径：

cp /path/to/WordCount.jar /home/hadoop

（2）使用 Spark 提交程序：

/usr/local/spark/bin/spark-submit --class WordCount /home/hadoop/WordCount.jar

（3）查看终端输出，验证结果。
通过以上步骤，你已经完成了使用 IntelliJ IDEA 和 Maven 编写、运行及打包一个简单的 Spark 应用程序！

查看全文

http://www.kler.cn/a/404465.html

基于Spring AI alibaba组件AI问答功能开发示例

SpringBoot提交参数去除前后空格

Linux firewall防火墙规则

Spring Security 安全认证框架

详解Oracle表的类型（一）

Makefile 之 join

2024年亚太地区数学建模大赛A题-复杂场景下水下图像增强技术的研究

#Uniapp篇：支持纯血鸿蒙发布适配UIUI

Spring Boot教程之Spring Boot简介

mysql 唯一键

ssm157基于Vue框架的订餐系统+vue(论文+源码)_kaic

45.坑王驾到第九期：Mac安装typescript后tsc命令无效的问题

鸿蒙学习高效开发与测试-应用程序框架和HarmonyOS SDK（3）

【网络工程】查看自己电脑网络IP，检查网络是否连通

算法【最长递增子序列问题与扩展】

移动应用开发：Android Studio实现简易注册页（数据存放以SharedPreferences形式）

奇异值分解和深度学习

Linux-Nginx虚拟主机

【智谱清言-注册_登录安全分析报告】

MACOS开发、使用常见问题汇总

使用 IntelliJ IDEA 编写 Spark 应用程序（Scala + Maven）

相关文章：