当前位置: 首页 > article >正文

如何部署SparkHistoryServer

spark-defaults.conf的配置:

# 镜像内配置路径: /opt/spark/conf/spark-defaults.conf

spark.history.fs.logDirectory=hdfs://xxx
spark.history.ui.port=18080
spark.history.retainedApplications=20

在提交Spark任务时,需要指定下面两个参数

spark.eventLog.enabled=true
spark.eventLog.dir=hdfs://xxx 

注意:spark.eventLog.dir和spark.history.fs.logDirectory 配置统一目录路径即可

对应Deployment和Service的yaml文件如下: 

apiVersion: apps/v1
kind: Deployment
metadata:
  name: spark-history-server
spec:
  replicas: 1
  selector:
    matchLabels:
      app: spark-history-server
  template:
    metadata:
      labels:
        app: spark-history-server
    spec:
      enableServiceLinks: false
      affinity:
        nodeAffinity:
          requiredDuringSchedulingIgnoredDuringExecution:
            nodeSelectorTerms:
              - matchExpressions:
                  - key: {your_node_label_spec}
                    operator: In
                    values:
                      - "true"
      restartPolicy: Always
      containers:
        - name: spark-history-server
          image: {your_repo}_dist-spark-online:3.2.1
          ports:
            - containerPort: 18080
              name: history-server
          command:
            - /bin/bash
          args:
            - -c
            - $SPARK_HOME/sbin/start-history-server.sh && tail -f /dev/null
          resources:
            limits:
              cpu: "2"
              memory: 4Gi
            requests:
              cpu: 100m
              memory: 256Mi
---
apiVersion: v1
kind: Service
metadata:
  name: spark-history-server-service
  annotations:
    
spec:
  type: LoadBalancer
  selector:
    app: spark-history-server
  ports:
    - name: server
      protocol: TCP
      port: 8088
      targetPort: history-server

启动命令的方式(可选):

1. $SPARK_HOME/sbin/start-history-server.sh (上述yaml中的方式)

2.  $SPARK_HOME/bin/spark-class org.apache.spark.deploy.history.HistoryServer \
     --properties-file /opt/spark/conf/spark-defaults.conf

遇到的问题?

1. 正在运行的spark任务,怎么在history-server中查看不了呢? 

    可能与spark.history.fs.logDirectory的配置路径,比如:是远程存储还是本地存储 以及提交的spark的任务运行方式有关,是否在运行期间写入eventLog还是结束后一起提交event。

具体得看情况分析


http://www.kler.cn/a/456852.html

相关文章:

  • 如何判断一个学术论文是否具有真正的科研价值?ChatGPT如何提供帮助?
  • Android使用DataStore保存数据之后断电重启设备数据丢失临时解决办法
  • cloudns二级免费域名python更新ipv6 dns记录
  • # 【鸿蒙开发】多线程之Worker的使用
  • 服务器被攻击怎么办
  • 每天40分玩转Django:Django表单集
  • 【Unity/C#】Fisher-Yates洗牌算法
  • 湖仓一体架构解析:数仓架构选择(第48天)
  • 软件安全性测试有多重要?好用的安全测试工具有哪些?
  • 使用 CSS 的 `::selection` 伪元素来改变 HTML 文本选中时的背景颜色
  • docker安装记录
  • leetcode hot100 括号生成
  • 实战ubuntu22.04 软raid查看命令
  • 【AI学习】DeepSeek-V3 技术报告学习:总体架构
  • pugixml XML配置文件 的增删改查
  • Qt中QWidget自定义形状
  • 基于Spring Boot的个人健康管理系统
  • 数据库课程设计-工资管理系统-MySQL
  • Gateway Timeout504 网关超时的完美解决方法
  • 自动化测试启动chrome debug模式
  • Elasticsearch检索方案之一:使用from+size实现分页
  • 基于Oauth2的SSO单点登录---前端
  • .NET周刊【12月第3期 2024-12-15】
  • 深入解析Android Framework中的android.location包:架构设计、设计模式与系统定制
  • TensorFlow深度学习实战(2)——使用TensorFlow构建神经网络
  • 一篇文章了解 Kafka