当前位置: 首页 > article >正文

MR-Flink-Spark任务提交-常用命令

MapReduce任务

MR任务提交在Hadoop集群

[root@node5 ~]# hadoop jar /software/hadoop-3.3.6/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar wordcount /input/data.txt /output

hadoop jar:在Hadoop集群运行一个由Java编写的Jar包

/software/hadoop-3.3.6/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar :要运行的Jar文件的路径

wordcount:指定要运行的主类

/input/data.txt :输入文件的位置和名称

/output 输出目录的路径

Flink任务

Standalone-Session

[root@node4 ~]# cd /software/flink-1.16.0/bin/
#向Flink集群中提交任务
[root@node4 bin]# ./flink run -m node1:8081 -d -Dpipeline.name=socket-wc -c com.flinkjava.code.SocketWordCount /root/FlinkJavaCode-1.0-SNAPSHOT-jar-with-dependencies.jar

flink run-m master-node:8081
-c package-name.class-namejar文件路径

Standalone-Application

[root@node1 ~]# cd /software/flink-1.16.0/bin/

#执行如下命令,启动JobManager
[root@node1 bin]# ./standalone-job.sh start --job-classname com.flinkjava.code.SocketWordCount

#在node1节点上启动TaskManager
[root@node1 ~]# cd /software/flink-1.16.0/bin/
[root@node1 bin]# ./taskmanager.sh start

#在node2节点上启动TaskManager
[root@node2 ~]# cd /software/flink-1.16.0/bin/
[root@node2 bin]# ./taskmanager.sh start

Yarn-Session

[root@node5 ~]# cd /software/flink-1.16.0/bin/

#启动Yarn Session集群,名称为jumc,每个TM有3个slot
[root@node5 bin]# ./yarn-session.sh -s 3 -nm jqmc -d

在这里插入图片描述

[root@node5 ~]# cd /software/flink-1.16.0/bin/

#执行如下命令,会根据.yarn-properties-<用户名>文件,自动发现yarn session 集群
[root@node5 bin]# ./flink run -c com.flinkjava.code.FlinkAppWithMultiJob /root/FlinkJavaCode-1.0-SNAPSHOT-jar-with-dependencies.jar 

#yarn-properties-<用户名>文件误删的情况,也可以使用如下命令指定Yarn Session集群提交任务,-t 指定运行的模式
[root@node5 bin]# ./flink run -t yarn-session -Dyarn.application.id=application_1671646730912_0001 -c com.flinkjava.code.FlinkAppWithMultiJob /root/FlinkJavaCode-1.0-SNAPSHOT-jar-with-dependencies.jar

查看Yarn Session集群中任务列表, 后面跟上Yarn Application ID

[root@node5 bin]# ./flink list
------------------ Running/Restarting Jobs -------------------
59f6f9a45fd9a7655e93a94dff455b66 : first job (RUNNING)
7ui972d8f59ed0eb51d2d78912d4859 : second job (RUNNING)
t00899a2d43a44217802ca7e7512feb4 : first job (RUNNING)

取消Job

[root@node5 bin]# ./flink cancel 59f6f9a45fd9a7655e93a94dff455b66 
[root@node5 bin]# ./flink cancel 7ui972d8f59ed0eb51d2d78912d4859 

取消Flink任务

[root@node5 bin]# yarn application -kill application_8760977810832_0001
  1. Yarn-Application

#Yarn Application模式提交任务命令
[root@node5 bin]# ./flink run-application -t yarn-application -c com.flinkjava.code.FlinkAppWithMultiJob /root/FlinkJavaCode-1.0-SNAPSHOT-jar-with-dependencies.jar

查看Flink 集群中的Job作业:flink list -t yarn-application -Dyarn.application.id=application_XXXX_YY

[root@node5 bin]# flink list -t yarn-application -Dyarn.application.id=application_1671610064817_0004
------------------ Running/Restarting Jobs -------------------
108a7b91cf6b797d4b61a81156cd4863 : first job (RUNNING)
5adacb416f99852408224234d9027cc7 : second job (RUNNING)

取消Flink集群中的Job作业:flink cancel -t yarn-application -Dyarn.application.id=application_XXXX_YY

[root@node5 bin]# flink cancel -t yarn-application -Dyarn.application.id=application_1671610064817_0004 108a7b91cf6b797d4b61a81156cd4863

停止集群,当取消Flink集群中所有任务后,Flink集群停止,也可以使用yarn application -kill ApplicationID 停止集群

[root@node5 bin]# yarn application -kill application_1671610064817_0004
  1. Yarn-PerJob

[root@node5 bin]# ./flink run -t yarn-per-job -d -c com.flinkjava.code.FlinkAppWithMultiJob /root/FlinkJavaCode-1.0-SNAPSHOT-jar-with-dependencies.jar

在这里插入图片描述
取消Job

#取消任务命令执行后对应的 Flink集群也会停止 :flink cancel -t yarn-per-job -Dyarn.application.id=application_XXXX_YY <jobId>
[root@node5 bin]# ./flink cancel -t yarn-per-job -Dyarn.application.id=application_1762010015732_0001 805542d84c9944480196ef73911d1b59
[root@node5 bin]# ./flink cancel -t yarn-per-job -Dyarn.application.id=application_1891710015732_0002 56365ae67b8e93b1184d22fa567d7ddf

Spark任务

spark-submit
--master: 指定提交到哪里, 比如 yarn  local  spark集群等
--deploy-mode: 部署模式 client  cluster
--name:  设置应用的运行的名字 
--jars: 加载一些第三方的jar包
--conf: 设置配置信息
	方式一  key =value
	方式二  "key=value"
--driver-memory: 设置Driver的内容. 一般都是默认1GB 或者2GB 不会设置过高
--driver-cores: 设置driver占用的cpu的核数  要想此参数生效, 必须部署模式为cluster
--supervise:  如果Driver驱动失败, 是否可以重启

--executor-memory: 设置每个executor的内存大小
--executor-cores:  设置每个executor的CPU的核数
--num-executors: 设置启动多少个executor
--queue:  执行提交到那个队列, 一般主要使用在提交到具有队列的资源平台上, 例如Yarn

http://www.kler.cn/a/592407.html

相关文章:

  • 物联网的数据传输与处理!
  • [GHCTF 2025]真会布置栈吗?
  • WebGL学习2
  • 【红黑树】—— 我与C++的不解之缘(二十五)
  • Windows 图形显示驱动开发-WDDM 3.0功能- 硬件翻转队列(四)
  • K-均值聚类
  • Python 实现高效的实体扩展算法
  • 正点原子[第三期]Arm(iMX6U)Linux移植学习笔记-6.2uboot启动流程-lowlevel_init,s_init,_main函数执行
  • Windows 11右键菜单栏如何修改为Windows 10风格【完整教程】以及如何恢复Win11菜单栏风格
  • 技术改变生活:探索新科技的力量与影响
  • element-plus中Dropdown下拉菜单组件的使用
  • 论文解读:含可靠置信度的视频超分辨显微成像(频域卷积+贝叶斯深度学习)
  • vscode 配置服务器远程连接
  • 构建下一代AI Agent:自动化开发与行业落地全解析
  • langgraph简单Demo(使用langserve实现外部调用)
  • 该错误是由于`KuhnMunkres`类未定义`history`属性导致的
  • 记一次服务器中木马导致cpu占用高的问题
  • scrollIntoView 的behavior都有哪些属性
  • 知识蒸馏:从软标签压缩到推理能力迁移的工程实践(基于教师-学生模型的高效压缩技术与DeepSeek合成数据创新) (1)
  • 机器学习和深度学习中参数概览