当前位置: 首页 > article >正文

Spark程序的监控

也可以理解为4040界面的使用。

import time

time.sleep(100000)

写代码时添加这个代码,让进行程序休眠。然后就可以访问4040界面

本地的程序,访问地址是:http://localhost:4040

4040是一个程序创建的,一个程序一个界面,切记 

Job:

各个界面作用:
Job:显示当前这个程序的所有Job,一个程序可以有多个Job

Spark中不是所有的代码都会触发Job的产生和运行
所有RDD的转换是不会立即产生job,运行Task任务的,这种模式称为Lazy模式:避免在内存中构建RDD,但是你不用只有遇到了需要使用数据的代码操作才会产生job,触发Task任务的运行

能触发job任务生成的目前有: saveAsTextFile   foreach

 Stages:

Stages:显示当前这个程序的所有Stage,一个Job可以有多个 Stage
Stage 可以理解为多个算子组成的阶段,到底有多少个Stage,取决于算子是否会触发shuffle过程。假如有两个触发shuffle过程的算子,整个程序可以切为三个阶段。
当一个Job被触发运行的时候,Spark底层会根据回溯算法构建这个job的执行计划图,即DAG图
每个Job都会有1个DAG图,在构建的时候会根据计算过程中是否要产生shuffle来划分Stage
不产生Shuffle的操作就在同一个Stage中执行,产生Shuffle的操作,会传递到另外一个Stage中执行
最终每个Stage中的操作会转换为对应的Task来执行

每个黑点表示一个RDD

每个矩形框中的RDD的转换都是在内存中完成的

曲线代表经过了Shuffle,灰色代表没有执行,因为之前执行的

Executors 

显示当前这个程序的运行进程的信息
每个Spark程序都由两种进程组成:一个Driver和多个Executors 
Driver进程:负责解析程序,构建DAG图,构建Stage,构建、调度、监控Task任务的运行
Executor进程:负责运行程序中的所有Task任务

 

假如你是集群运行,有可能有四个,以下是集群运行workcout的截图: 

Storage:显示当前这个程序在内存缓存的数据信息 。

Environment:显示当前这个程序所有的配置信息。


http://www.kler.cn/a/384227.html

相关文章:

  • Proteus中数码管动态扫描显示不全(已解决)
  • 大众汽车合肥社招入职笔试测评SHL题库:综合能力、性格问卷、英语口语真题考什么?
  • 智慧商城项目-VUE2
  • 算法题求解-给定一个整数序列,要求将序列中所有负数都放于所有非负数之前
  • shodan6-7---清风
  • 题目练习之二叉树那些事儿(续集)
  • Python配合Flask搭建简单的个人博客案例demo
  • 【react】Redux基础用法
  • 【Linux】进程控制——创建,终止,等待回收
  • Java多线程详解⑤(全程干货!!!)线程安全问题 || 锁 || synchronized
  • 7-在Ubuntu中使用超级终端Terminator提高工作效率
  • C++入门基础知识141—【关于C++ 拷贝构造函数】
  • Python函数专题:引用传参
  • metrics
  • Java教育技术革新:基于SpringBoot的平台
  • Angular数据绑定详解
  • web——sqliabs靶场——第一关
  • RibbitMQ-安装
  • K8S网络插件故障处理
  • 【STM32】DMA直接存储器读取
  • linux crash使用和环境部署
  • C++从零到满绩——命名空间、输入输出and缺省参数
  • Selenium 高频面试题及答案
  • Java中的远程方法调用——RPC详解
  • solo博客源码使用idea编译运行
  • 信息安全工程师(81)网络安全测评质量管理与标准