当前位置: 首页 > article >正文

案例分享 | 金融微服务场景下如何提升运维可观测性

​云原生环境下金融业务的微服务化改造以及分布式架构的部署,使得业务与开发部门的关联更为紧密,传统运维监控已满足不了业务运营需求,亟需建设具备可观测性的运维体系。所以这次我们以某金融客户的实践案例为例,跟大家说一说在金融微服务场景下应如何提升运维可观测性,从而助力业务转型。

一、行业痛点

​随着金融行业数字化转型战略实践工作的深化推进,数字化业务快速发展,日志类型和日志量急速增加,但各类日志数据(软硬件)分散且繁杂,缺乏统一的全生命周期管理和海量日志的监控分析处理能力,给业务监控告警、日志搜索分析、审计溯源造成了一定制约。

其次,在云原生环境中,随着微服务化进程加快,很多业务系统微服务化后带来了复杂的运维排障屏障。总体难点表现如下:

1.生产环境业务级异常感知滞后

这导致了故障影响范围往往被放大,且降低了服务品质。其次生产故障定位处理,缺少快速有效的辅助工具,也影响了业务连续性。

2.增加问题排查难度

各系统日志数据分散存储,日志路径、格式、打印规范等各有差异,增加问题排查难度技术迭代演进(微服务化、容器化等),传统运维方式支撑不足。

3.国家相关法规要求

国家网络安全法要求及行业监管机构要求对日志进行统一的采集、存储、分析、可视化等,配合审计需实现异常行为快速提取与回溯。

二、建设目标

​以云原生可观测性建设为主目标,拉通各类基础监控、数据采集、日志等分析工具的数据孤岛,以云原生领域中对业务场景的需求为驱动,通过技术手段实现业务运营全过程的透明化,提升业务连续性保障,提升服务开发上线效率,提高IT服务质量等,在运维能力提升的同时,亦提升用户体验。

三、解决方案

​本方案主要通过协助金融客户完善管理规范制度、建设统一日志平台、整合观测数据三个关键步骤助力可观测性提升。主要从以下几个方面入手解决

1.完善管理制度规范

技术平台为管理服务,要做好技术平台,就需要首先梳理、完善管理规范制度,我司与行方客户一起,对现有的客户规范、业内规范进行调研、条目梳理并进行日志管理规范的总结及能力应用规划。

如对业务日志的规范化进行了4层的丰富度说明,并根据不同的级别梳理了不同的规范度、可以实现的不同效果、达到的不同能力级别,通过规范的梳理,可以更好的评估客户现有不同业务系统及其日志的规范化程度,并根据客户数字化推进的阶段,反推不同业务系统的下一步管理要求。

2.建设统一日志平台

对数字化转型的提升,管理制度的规范化是道,具体实现,还需要有术的支持,我们这里的术就是基于擎创的日志管理平台作为基础底座,通过整合监控及调用链数据,以可观测性提升为核心的统一日志平台。

平台架构主要分4层:最底层为数据源层及接入层。日志数据、监控数据、调用链数据都归为数据源,对不同的数据源,通过不同的采集技术进行纳管,如agnet,syslog、API等。

在数据处理层,采用数据中台进行数据缓冲、计算、存储,把原始的最基础的数据通过规范化、清洗、聚合计算、数据关联等方式实现从数据到业务运行状态观测的转变。

在应用层,通过前端进行交互界面给运维使用方以直观、高效的操作体验,在后端及中间件层,对运行状态观测数据进行缓冲高效查询及部分业务逻辑处理。

3.整合观测数据

​数据源的丰富度及质量直接决定了可观测性的挖掘深度,在现有的环境中,我们接入了操作系统、数据库、中间件、硬件设备、容器及应用这些类型的日志及监控数据,在链路层,通过skywalking接入了多套业务系统的链路数据,同时在日志中,根据客户规范,增加的对应的TID标示,用于日志及链路数据的深度结合。

四、解决方案亮点

1.实现业务日志统一查询

能够全局性覆盖主要业务系统,实现日志的统一快速高效的查询,并通过部分日志的合并、解析、分析,实现日志的更高效利用。在这个基础上实现更多贴合实际生产环境的功能开发,如二次查询、全链路排障、数据湖冷备数据查询、上下文行数自动滚动、日志内xmljson段格式化、用户使用统计分析等功能。

2.关注业务系统运行状态及告警

从日志角度,对业务系统进行统计分析,得到业务系统的整体概览状态,方便快速了解系统运行状态。

3.实现业务日志全链路串联

根据现有的系统环境及业务场景,打通统一日志系统与Skywalking的数据,通过中间层处理,用TID在日志及Skywalking做上下文关联,通过全局流水号(SEQ_NO)、业务流水号或任意内容搜索,得到业务系统详细日志及链路信息,实现了排障一体化解决。同时,可以直观方便的了解业务系统中业务拓扑及单笔交易的链路拓扑,为排障提供了非常方便的工具,丰富了排障场景,且易于使用。

4.整合监控内容

运维场景中除了查询日志及trace信息,经常还需要核对到监控平台查看监控数据,通过整合监控数据,减少运维场景下的不同平台跳转,提升运维效率。

5.数据湖冷备数据查询

对接原有数据湖,实现数据的双写,一份用于日常查询排障使用,到存储容量限制后,定期滚动删除;一份存储于数据湖内,长期保存,用于审计场景下使用。

同时,实现冷备数据的在线查询,以及更高的压缩率及接近热数据查询的查询速度。

云原生时代下,金融业务发展迅速,数字化转型的脚步日益加快。

该案例主要解决的是企业在进行云端微服务化改造时,面临传统监控无法高度细化分析与关联数据等问题。我们从日志维度出发,建设可观测运维体系的方法并有效落地,从而提升金融企业用户数据处理和分析能力的精细程度,辅助用户挖掘数据深层价值,全面提升业务运营的连续性与稳定性。


擎创科技,Gartner连续推荐的AIOps领域标杆供应商。公司致力于协助企业客户提升对运维数据的洞见能力,优化运维效率,充分体现科技运维对业务运营的影响力。

行业龙头客户的共同选择

更多运维思路与案例持续更新中,敬请期待

随手点关注,更新不迷路~


http://www.kler.cn/a/2119.html

相关文章:

  • 后端使用Spring Boot框架 + 前端VUE 实现滑动模块验证码
  • 将4G太阳能无线监控的视频接入电子监控大屏,要考虑哪些方面?
  • 基于langchain的Agent(实现实时查询天气)
  • day38-SSH安全登录
  • Zabbix6.0升级为6.4
  • 在图像上显示掩码、框和点的通用函数
  • DBA使用Shell完成自动化相关工作
  • 【python进阶】你还在使用for循环新建数组?生成器表达式帮你一行解决
  • 文心一言 vs. GPT-4 —— 全面横向比较
  • 一、基础算法3:二分 模板题+算法模板(数的范围,数的三次方根)
  • 【网络】网络层协议——IP
  • MYSQL常用命令大全
  • 前后台程序的嵌入式时间转轮算法
  • 图片怎么做成GIF动态图?分享两种可以实现的方法
  • ​申请专利需要具备什么条件
  • 【C++】初识模板
  • 上海人工智能企业CIMCAI世界第一完成两百万次AI验箱上亿次箱识别,成熟AI产品运行超7百万小时智慧港航智能化上海人工智能企业
  • js数组方法(大全)
  • 【Linux入门篇】操作系统安装、网络配置
  • QT搭建MQTT开发环境
  • 【数据结构】Java实现双向链表
  • 个人小站折腾后记
  • Linux命令---设备管理
  • 太强了,英伟达面对ChatGPT还有这一招...
  • 文心一言实际测试——让我们拿实际说好坏
  • QT 如何提高 Qt Creator 的编译速度