当前位置: 首页 > article >正文

简单prometheus+grafana+pushgateway采集GPU利用率和交换机流量

1、prometheus+pushgateway

从https://prometheus.io/download/下载prometheus和pushgateway
下载后修改prometheus.yaml
pushgateway需要设置honor_labels: true才能保留原来的job、instance等
在这里插入图片描述
然后启动:./prometheus --config.file=“./prometheus.yml”
./pushgateway
访问pushgateway:http://x.x.x.x:9091
查看pushgateway数据:http://x.x.x.x:9091/metrics
注意:pushgateway只保留最后一次推送的值,prometheus拉取的时候也是拉取pushgateway当前存储的值

查看prometheus:http://x.x.x.x:9090
在这里插入图片描述
Status->Targets里面可以检查目标状态、上次拉取时间等

注意:http://x.x.x.x:9090/metrics并不能查看到所有表项

2、grafana

grafana安装:
apt-get install -y software-properties-common
wget -q -O - https://packages.grafana.com/gpg.key | sudo apt-key add -
add-apt-repository “deb https://packages.grafana.com/oss/deb stable main”
apt install grafana
systemctl start grafana-server
systemctl enable grafana-server
登录:http://x.x.x.x:3000
用户名密码admin admin

有的exporter源码会提供grafana配置文件,比如dcgm-exporter中:
dcgm-exporter\grafana\dcgm-exporter-dashboard.json

在Home->Dashboards->New->Import中导入json就可以看到图形

修改Y轴的单位

对应panel右上角三个点中选择Edit,Standard options,Uint中选择(忘了。。待确认)

安装dcgm-exporter

https://github.com/NVIDIA/dcgm-exporter
下载源码,然后:
kubectl create namespace gpu-monitoring
kubectl apply dcgm-exporter/service-monitor.yaml
kubectl apply dcgm-exporter/dcgm-exporter.yaml -n gpu-monitoring
创建nodeport并提交

apiVersion: v1
kind: Service
metadata:
  name: dcgm-exporter
  namespace: gpu-monitoring
spec:
  selector:
    app.kubernetes.io/name: dcgm-exporter
  ports:
  - port: 9400
    targetPort: 9400
    nodePort: 30094
  type: NodePort

测试:curl http://localhost:30094/metrics

问题1:

error: resource mapping not found for name: "dcgm-exporter" namespace: "" from "service-monitor.yaml": no matches for kind "ServiceMonitor" in version "monitoring.coreos.com/v1"
ensure CRDs are installed first

下载https://github.com/prometheus-operator/prometheus-operato,提交prometheus-operator\prometheus-operator\example\prometheus-operator-crd\monitoring.coreos.com_servicemonitors.yaml


http://www.kler.cn/a/512233.html

相关文章:

  • 学习记录之原型,原型链
  • 如何用3个月零基础入门网络安全?_网络安全零基础怎么学习
  • Kotlin Bytedeco OpenCV 图像图像50 仿射变换 图像缩放
  • 计算机网络 (46)简单网络管理协议SNMP
  • 云计算与物联网技术的融合应用(在工业、农业、家居、医疗、环境、城市等整理较全)
  • 第十三章:数据库技术
  • uniapp(小程序、app、微信公众号、H5)预览下载文件(pdf)
  • ORACLE 12C开启EM EXPRESS过程
  • 架构优化指南:五大场景下如何发现隐藏的耦合?
  • 自动化爬虫运行过程中,有没有办法提高爬虫的抓取效率?
  • 介绍 HTTP 请求如何实现跨域
  • Oracle之RMAN备份异机恢复(单机到单机)
  • doris 2.1 Queries Acceleration-Hints 学习笔记
  • 头歌实训作业 算法设计与分析-贪心算法(第1关:部分背包问题)
  • 群晖Cloud Sync如何实现一键同步备份让数据更安全高效
  • 使用HTML5 Canvas 实现呼吸粒子球动画效果的原理
  • 软考,沟通管理
  • (开源)基于Django+Yolov8+Tensorflow的智能鸟类识别平台
  • Rust语言的正则表达式
  • 华为OD机试E卷 --日志首次上报最多积分 --24年OD统一考试(Java JS Python C C++)
  • 【0x0052】HCI_Write_Extended_Inquiry_Response命令详解
  • 基于SSM实现的乡村振兴文化平台系统功能实现八
  • LARGE LANGUAGE MODELS ARE HUMAN-LEVEL PROMPT ENGINEERS
  • 《Linux服务与安全管理》| 邮件服务器安装和配置
  • antd + VUE循环form-item的校验 循环校验(多层循环)
  • 二十六、资源限制-ResourceQuota