数据云平台的可观测性
在数据驱动的世界中,企业依赖数据云平台来处理、存储和分析大量数据。数据云平台的可观测性变得尤为重要,因为它不仅能帮助企业实时监控数据流和系统性能,还能提高故障诊断和系统优化的效率。
本文将探讨数据云平台可观测性的关键性、其三大支柱以及数据云平台可观测性与传统可观测性的异同,最后讨论如何以“任务”为核心进行数据串联。
1 可观测性的构成支柱
可观测性主要由三大支柱组成:Logging、Metrics和Tracing
-
日志记录(Logging)
日志记载了系统运行的详尽事件序列,含括错误日志、预警通知及调试信息,是故障回溯与诊断的关键资源。 -
性能指标(Metrics)
性能指标是系统运行态势的量化解析,如CPU利用率、数据处理吞吐量、延时等,通过设置阈值触发报警,实现实时监控与异常响应。 -
分布式追踪(Tracing)
追踪技术聚焦单一请求或事务在分布式系统内的完整执行轨迹,揭示服务间交互的时间成本,对于理解系统内部协作机制与优化流程至关重要。
2 DataSimba数据云平台可观测性
2.1 一致的地方
DataSimba的本质上也是一个“系统”,所以传统的可观测性的三大项都包含在内。
- Logging
DataSimba有完整的日志采集体系,采集包含应用日志、系统日志、用户行为日志等等,然后进行汇总整理,进行统一的展示和分析,方便开发和运维同学使用。
- Metrics
DataSimba的Metircs体系是元仓(SimbaSchema),元仓是SimbaOS数据模型服务。
包含基础数据模型和主题数据模型。基础数据模型提供云平台基础信息,如表、作业、血缘等。主题数据模型基于观测、诊断、预测的数据价值链进行分类,提供指标数据。
通过访问数据模型,支持平台管理、数据运维和数据开发角色进行大数据诊断、智能运维、数据治理、安全合规等场景的分析和应用。
我们在结合DataSimba数据开发的全链路过程加深对模型的理解:元仓模型基于DataSimba的集成、研发、运维、治理路径的全链路业务可以进行一一映射,模型及指标体系融合到业务中,对系统状态进行全面可观测和分析。
如运维巡检模型面向巡检工作,映射整个DataSimba系统;
数据研发风控以及血缘治理模型是对日常ETL的变更的风险进行观测,映射数据集成、作业和任务开发以及数据运维流程等。
现在元仓已有11个模型,分别为:
· 数据研发风控模型
· 血缘治理模型
· 数据服务调用模型
· 存储分析模型
· 基线预测模型
· 运维巡检模型
· 窗口调度分析模型
· 安全审计模型
· 任务时间异常检测模型
· Job诊断模型
· HDFS 健康分模型
- Tracing
DataSimba使用自研的Tracing方案,完全兼容OpenTelemetry协议,可以保证采集的Tracing数据可以完全推送到其他兼容OpenTelemetry的引擎当中,确保整体方案的兼容和可用性。
基于不同的需求场景,我们搭配出DataSimba的不同版本。此前已经推出标准版、专业版、旗舰版和红旗版。这次依据用户最关心的场景需求,我们新推出了敏捷版,进一步完善了产品线,让数据云简单一点。
2.2 不同的地方
- 整体架构
Simba产品整体的架构都是基于SimbaOS Kernel,SimbaOS Kernel 抽象了6大域31对象,屏蔽底层复杂度,对上提供服务,支撑上游产品。
同时SimbaOS 里面也将可观测性的数据模型,以对象体系为框架去组织的。
- “任务”为核心
传统的可观测性更多关注在非业务上,而数据云平台本身核心其实除了数据就是各种任务的执行,所以除了传统意义的可观测性以外,还需要有一定的业务。
也就是以“任务”为核心的数据串联。
为了做到这点,DataSimba结合元仓+日志+Tracing数据,以“任务”为中心,将所有的数据进行整合并关联,形成知识图谱。最后DataSimba产品的功能针对“任务”做了很多的功能点优化。
核心功能都是围绕“任务”的全生命周期管理。具体功能如下:
· 任务运行前
所谓的事前评估机制本质上其实在事前就发现问题,避免出现问题的任务提交到运维当中。
增加资源消耗评估。在开发界面增加「评估」功能,评估功能本质上依据历史数据训练的模型,基于现在作业的相关参数预估出该作业整体会消耗的总资源量。
· 任务运行中
任务运行中,可以实时看到整体任务的运行情况以及资源消耗,同时通过模型+规则识别正在运行任务存在风险,同时用户可以配置规则来对风险任务进行动作。
· 任务运行后
事后通过全链路诊断,诊断实例失败的相关原因,比如检查依赖,检查参数,检查任务作业实例本身,检查运行日志等等。
3 总结
DataSimba的可观测性通过有效的可观测性策略,帮助企业实现实时监控、快速故障诊断、系统性能优化和增强安全合规性。DataSimba可观测性不仅涵盖了传统可观测性的三大支柱,还需要将业务逻辑与技术监控结合,以“任务”为核心进行数据串联,提供更全面的业务洞察力和系统保障。