当前位置: 首页 > article >正文

数据云平台的可观测性

在数据驱动的世界中,企业依赖数据云平台来处理、存储和分析大量数据。数据云平台的可观测性变得尤为重要,因为它不仅能帮助企业实时监控数据流和系统性能,还能提高故障诊断和系统优化的效率。

本文将探讨数据云平台可观测性的关键性、其三大支柱以及数据云平台可观测性与传统可观测性的异同,最后讨论如何以“任务”为核心进行数据串联。

1 可观测性的构成支柱

可观测性主要由三大支柱组成:Logging、Metrics和Tracing

在这里插入图片描述

  1. 日志记录(Logging)
    日志记载了系统运行的详尽事件序列,含括错误日志、预警通知及调试信息,是故障回溯与诊断的关键资源。

  2. 性能指标(Metrics)
    性能指标是系统运行态势的量化解析,如CPU利用率、数据处理吞吐量、延时等,通过设置阈值触发报警,实现实时监控与异常响应。

  3. 分布式追踪(Tracing)
    追踪技术聚焦单一请求或事务在分布式系统内的完整执行轨迹,揭示服务间交互的时间成本,对于理解系统内部协作机制与优化流程至关重要。

2 DataSimba数据云平台可观测性

2.1 一致的地方

DataSimba的本质上也是一个“系统”,所以传统的可观测性的三大项都包含在内。

  1. Logging

在这里插入图片描述

DataSimba有完整的日志采集体系,采集包含应用日志、系统日志、用户行为日志等等,然后进行汇总整理,进行统一的展示和分析,方便开发和运维同学使用。

  1. Metrics

在这里插入图片描述
DataSimba的Metircs体系是元仓(SimbaSchema),元仓是SimbaOS数据模型服务。

包含基础数据模型和主题数据模型。基础数据模型提供云平台基础信息,如表、作业、血缘等。主题数据模型基于观测、诊断、预测的数据价值链进行分类,提供指标数据。

通过访问数据模型,支持平台管理、数据运维和数据开发角色进行大数据诊断、智能运维、数据治理、安全合规等场景的分析和应用。

我们在结合DataSimba数据开发的全链路过程加深对模型的理解:元仓模型基于DataSimba的集成、研发、运维、治理路径的全链路业务可以进行一一映射,模型及指标体系融合到业务中,对系统状态进行全面可观测和分析。

如运维巡检模型面向巡检工作,映射整个DataSimba系统;

数据研发风控以及血缘治理模型是对日常ETL的变更的风险进行观测,映射数据集成、作业和任务开发以及数据运维流程等。

现在元仓已有11个模型,分别为:
· 数据研发风控模型
· 血缘治理模型
· 数据服务调用模型
· 存储分析模型
· 基线预测模型
· 运维巡检模型
· 窗口调度分析模型
· 安全审计模型
· 任务时间异常检测模型
· Job诊断模型
· HDFS 健康分模型

  1. Tracing

在这里插入图片描述
DataSimba使用自研的Tracing方案,完全兼容OpenTelemetry协议,可以保证采集的Tracing数据可以完全推送到其他兼容OpenTelemetry的引擎当中,确保整体方案的兼容和可用性。

基于不同的需求场景,我们搭配出DataSimba的不同版本。此前已经推出标准版、专业版、旗舰版和红旗版。这次依据用户最关心的场景需求,我们新推出了敏捷版,进一步完善了产品线,让数据云简单一点。

2.2 不同的地方

  1. 整体架构

Simba产品整体的架构都是基于SimbaOS Kernel,SimbaOS Kernel 抽象了6大域31对象,屏蔽底层复杂度,对上提供服务,支撑上游产品。

在这里插入图片描述

同时SimbaOS 里面也将可观测性的数据模型,以对象体系为框架去组织的。

  1. “任务”为核心

传统的可观测性更多关注在非业务上,而数据云平台本身核心其实除了数据就是各种任务的执行,所以除了传统意义的可观测性以外,还需要有一定的业务。

也就是以“任务”为核心的数据串联。

在这里插入图片描述

为了做到这点,DataSimba结合元仓+日志+Tracing数据,以“任务”为中心,将所有的数据进行整合并关联,形成知识图谱。最后DataSimba产品的功能针对“任务”做了很多的功能点优化。

核心功能都是围绕“任务”的全生命周期管理。具体功能如下:

· 任务运行前
所谓的事前评估机制本质上其实在事前就发现问题,避免出现问题的任务提交到运维当中。

增加资源消耗评估。在开发界面增加「评估」功能,评估功能本质上依据历史数据训练的模型,基于现在作业的相关参数预估出该作业整体会消耗的总资源量。

在这里插入图片描述

· 任务运行中
任务运行中,可以实时看到整体任务的运行情况以及资源消耗,同时通过模型+规则识别正在运行任务存在风险,同时用户可以配置规则来对风险任务进行动作。
在这里插入图片描述

· 任务运行后
事后通过全链路诊断,诊断实例失败的相关原因,比如检查依赖,检查参数,检查任务作业实例本身,检查运行日志等等。

3 总结

DataSimba的可观测性通过有效的可观测性策略,帮助企业实现实时监控、快速故障诊断、系统性能优化和增强安全合规性。DataSimba可观测性不仅涵盖了传统可观测性的三大支柱,还需要将业务逻辑与技术监控结合,以“任务”为核心进行数据串联,提供更全面的业务洞察力和系统保障。


http://www.kler.cn/a/447251.html

相关文章:

  • 京准电钟:电厂自控NTP时间同步服务器技术方案
  • electron打包linux环境
  • 什么?Flutter 可能会被 SwiftUI/ArkUI 化?全新的 Flutter Roadmap
  • Tekscan压力分布测量系统:电池安全与质量提升的保障
  • 【Tomcat】第六站(最后一站啦!):数据的返回
  • 《全面解析 QT 各版本:特性、应用与选择策略》
  • 【Leecode】Leecode刷题之路第87天之扰乱字符串
  • SKETCHPAD——允许语言模型生成中间草图,在几何、函数、图算法和游戏策略等所有数学任务中持续提高基础模型的性能
  • ip_output函数
  • 音视频学习(二十六):http-flv
  • Docker搭建kafka环境
  • 线性分类器(KNN,SVM损失,交叉熵损失,softmax)
  • 微信小程序-生成骨架屏
  • nbcio-vue版本第一次登录出现404问题
  • Docker安全性与最佳实践
  • Hive其五,使用技巧,数据查询,日志以及复杂类型的使用
  • 【VSCode】常用插件汇总
  • linux应用编程(点亮LED)
  • VSCode 中 Git 功能比较:内置 Git、GitLens 与 Git History 插件
  • 腾讯游戏安全移动赛题Tencent2016A
  • gesp(二级)(8)洛谷:B3866:[GESP202309 二级] 数字黑洞
  • 云手机测评:云端赋能的智能移动新势力
  • 解决vscode ssh远程连接服务器一直卡在下载 vscode server问题
  • 5G 模组 初始化状态检测
  • 深耕灾备国产化,YashanDB与鼎甲科技联合推出“流式备份”解决方案
  • 黄历宜忌算法 API:黄道吉日 PHP 计算方法