当前位置: 首页 > article >正文

【运维监控】Prometheus+grafana监控flink运行情况

  • 运维监控系列文章入口:【运维监控】系列文章汇总索引

文章目录

  • 一、prometheus
  • 二、grafana
  • 三、flink配置修改
  • 四、prometheus集成grafana监控flink
    • 1、修改prometheus配置文件
    • 2、导入grafana模板
    • 3、验证


  • 本示例通过flink自带的监控信息暴露出来,然后将数据收集到prometheus中,最后通过grafana的dashboard导入模板进行可视化。
  • 本示例分为四个部分,即prometheus、grafana部署、flink配置修改和最后的集成。
  • 说明:本示例中的部署环境没有要求,即应用部署的机器根据实际情况而定,只要网络连通即可。

一、prometheus

参考:【运维监控】prometheus+node exporter+grafana 监控linux机器运行情况关于prometheus的部署。

二、grafana

参考:【运维监控】prometheus+node exporter+grafana 监控linux机器运行情况 关于grafana的部署。

三、flink配置修改

flink的部署请参考文章:1、Flink1.12.7或1.13.5详细介绍及本地安装部署、验证
在该文章的基础上,增加如下配置,修改的是flink-conf.yaml配置文件。

metrics.reporter.prom.factory.class: org.apache.flink.metrics.prometheus.PrometheusReporterFactory

配置文件保存后,重启flink集群。由于是集群环境,所以需要将整个集群的配置文件都需要修改,端口可以设置,也可以不设置,不设置端口,默认的是9249。

flink集群启动后,集群的任意服务器都可以按照如下方式访问暴露的指标数据,形如http://server4:9249/,图示如下。
在这里插入图片描述

四、prometheus集成grafana监控flink

1、修改prometheus配置文件

在prometheus的配置文件(prometheus.yml)中添加如下配置部分。作者的flink是集群高可用环境,即jobmanager部署在server1、server2上,taskmanager部署在server1、server2和server3服务器上。

  - job_name: "flink-job-manger"
    static_configs:
      - targets: [ "server1:9249","server2:9249" ]
    metrics_path: /
  - job_name: "flink-task-manger"
    static_configs:
      - targets: [ "server2:9249","server3:9249","server4:9249" ]
    metrics_path: /

重启prometheus后,并验证是否收集到监控信息。
查看Prometheus是否监控到运行的flink应用如下图。
在这里插入图片描述
查看prometheus是否收集到监控信息如下图(查询flink_taskmanager_Status_Shuffle_Netty_UsedMemory)
在这里插入图片描述

2、导入grafana模板

导入过程不再赘述,参考文章:【运维监控】Prometheus+grafana监控tomcat8.5 运行情况
本示例导入的模板ID是14911(Apache Flink (2021) Dashboard for Job / Task Manager)。

3、验证

以上所涉及的服务均能正常的运行,以及验证都通过。
点击添加的flink模板,则显示如下图所示。(如果想显示的数据比较多,则需要使用flink做一些复杂的任务,否则有些数据可能没有。)

  • Job Manager (JVM - CPU)
    在这里插入图片描述
  • Job Manager (JVM - Memory Usage)
    在这里插入图片描述
  • Job Manager (JVM - Garbage Collector)
    在这里插入图片描述
  • Job Manager (Slots & Jobs)
    在这里插入图片描述
  • Job Manager (Checkpoints)
    在这里插入图片描述
  • Task Manager (JVM - CPU)
    在这里插入图片描述
  • Task Manager (JVM - Memory Usage)
    在这里插入图片描述
  • Task Manager (JVM - Garbage Collector) 和Task Manager (Memory - Flink)
    在这里插入图片描述
  • Task Manager (Memory - Shuffle Netty)
    在这里插入图片描述
  • Task Manager (Job Task - Diag)
    在这里插入图片描述
  • Task Manager (Job Task - General)
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    以上,完成了Prometheus+grafana监控flink运行情况示例。

http://www.kler.cn/a/309736.html

相关文章:

  • 基于MATLAB+opencv人脸疲劳检测
  • C 语言标准库 - <errno.h>
  • 招聘app开发,人才招聘、求职首要方式
  • Go语言中的`io.Pipe`:实现进程间通信的利器
  • C++初阶——vector
  • c和cpp的异常处理
  • SpringBoot2:web开发常用功能实现及原理解析-@ControllerAdvice实现全局异常统一处理
  • [苍穹外卖]-10WebSocket入门与实战
  • SpringBoot整合WebSocket实现消息推送或聊天功能示例
  • 从头开始学MyBatis—02基于xml和注解分别实现的增删改查
  • (java+Seleniums3)自动化测试实战2
  • ssh远程连接try1账号切换tips
  • 宝兰德MCP系列介绍 ①:中间件管理能力全线升级,驱动企业数字化管理效能提升
  • node.js 完全卸载和下载配置
  • 五种数据库特性对比(Redis/Mysql/SQLite/ES/MongoDB)
  • 780nm 扫地机器人模组:科技引领智能清洁新潮流
  • windows使用tcpdump.exe工具进行抓包教程
  • 企业如何构建有效的数据泄露防护安全体系
  • [yotroy.cool] MGT 388 - Finance for Engineers - notes 笔记
  • kubelet组件的启动流程源码分析
  • Openlayers 报错记录 Failed to execute ‘toDataURL‘ on ‘HTMLCanvasElement‘:
  • 三、(JS)JS中常见的表单事件
  • Nodejs+vue+Express游戏分享网站的设计与实现 7a2s2
  • linux 中gitee配置
  • 如何进行DAP-seq的数据挖掘,筛选验证位点
  • 【网络安全】-rce漏洞-pikachu