当前位置: 首页 > article >正文

浅谈数据治理(一)

治理工作如何对接下游推进


     1.让下游配合最重要的是调动积极性,让下游感觉到治理能对他们起作用 或者说能让业务方也能做大蛋糕,因为数据治理对于下游来说可有可无 没你数据治理 下游数据模型不也跑的没问题嘛,所以就如花姐刚才说的该警告的警告 该配合的配合,但这个警告也只是表面你可以从费用分摊上去说,也可以从下游痛点去说,共同做好保障措施,让他们也能分到项目大家一起分蛋糕(下游肯定有需要治理的点,其中最痛的是数据质量)
     2.除了这些还可以加一些奖惩措施比如我之前说的解决dq吃dq的活动,让下游觉得配合是有价值的
     3.还可以做到更大的推进作用,比如我们在和bi一起做治理等起了一定规模后可以发治理效果月报/周报 发送全部门,让其他部门也有感知

具体治理的点

  模型合规
     1.数据标准重制定及修复,包括对原来数据域重构,表字段命名体系重构,并对原来模型按照新标准合规改造  
     2.元数据补充 owner、使用说明、字段中文名具体内容、颗粒度声明、主键声明等补充保障下游及内部使用时候清晰 
     3.制度建设:完善模型评审制度、代码提交强审核,保障内容合规后上线 
     4.分层合理性,治理不规范的模型分层引用,例如ADS层表依赖了非DWS层的表,建议优化 
     5.数据链路合理性(本次新补充内容):减少因内容不足产出烟囱模型,从而相互依赖加长链路情况

  数据质量合规
     1.流程化,任务上线/变更流程,指标变更流程 
     2.dqc管控:对原4大基础dqc进行补充以及核心业务模型dqc补充,并对原无效dqc下线,对常触发dqc进行调整(例如表行数波动,可通过算法对近7天数据量监测) 
     3.sla及基线治理(这里也可以放到人员运维roi治理中):上线前把控,保障基线正常运行,核心任务优先产出且分配高资源,培训及整理值班运维手册,建设容灾备份快恢能力临时修复数据 
     4.上游问题数据治理:数据质量长期监测体系(详情见课程3-数据质量课件)
   
  数据安全合规
     1.角色权限管控,对不同使用/开发角色提供不同使用权限,根据报表、看板的权限等级,在同一个图表中限制不同的用户能够看到的数据也不一样(常用于报表各模块内容展示) 
     2.数据脱敏,通过脱敏防止数据泄漏 
     3.表/字段分级:对每个表及字段进行打标,保障每张表都有数据安全管控 
     4.数据权限使用 表/字段走审批流程 并设置数据使用申请时卡点负责人/组  
     5.其他 数据下载管控(一般来说最多下载1000行/次),离职数据风险管控等等
 
  存储资源治理
     1.设置统一表生命周期,并对当前表按照新标准裁剪,对未分区表重制定分区 
     2.长期未引用/被使用/临时的表下线 
     3.压缩格式/存储格式优化 
     4.根据业务对表存储重划分:对较大数据量表可以采取全量转增量操作、拉链表操作
 
  计算资源治理
     1.数据倾斜任务治理(后面我会细讲治理方法 这里跳过)
     2.消耗大core/内存任务治理 
     3.无效监控项、重复开发情况占用计算资源、数据价值低的模型占用计算资源及时下线 
     4.梳理数据链路并对任务调度治理 
     5.规划核心任务 并分配任务执行优先级 把非核心的任务靠后运行 
     6.小文件治理 
     7.其他 例如hive spark2 切换spark3采用aqe特性  采用z-order+spark排序算法解决join时读取效果提升
 
  数据价值治理 
     1.烟囱数据模型及对应任务、模型粒度重复及时下线 
     2.ads指标下沉到dws  
     3.建立模型价值度指标,持续下线低价值模型 
     4.下线ads层对应业务不再使用的场景模型
 
  人力成本治理
     1.指导培训组员技术侧/业务侧能力能够独挡一面,并完善文档沉淀帮助后续新人培训开展 
     2.让熟悉不同数据域的组员安排在合理的数据域范围,同时做backup 
     3.建立相应需求开发流程机制,统计人员产出效率,方便针对性安排后续开发内容
     4.为当前需求及项目难度打分,帮助大家更好意识到项目能否落地、以及产出时间,同时衡量每人产出roi


http://www.kler.cn/a/109059.html

相关文章:

  • 零基础玩转IPC之——海思平台实现P2P远程传输实验(基于TUTK,国科君正全志海思通用)
  • 有什么初学算法的书籍推荐?
  • 【电力系统】永磁同步电机调速系统带有扰动观测器
  • 【入门篇】A+B Problem——多语言版
  • 壹连科技IPO闯关成功!连接器行业上市企业+1
  • c语言数据结构与算法--简单实现栈和队列的出栈与入栈
  • Maven第四章:配置文件详解
  • 如何使用 Docker 搭建 Jenkins 环境?从安装到精通
  • 数据库管理-第113期 Oracle Exadata 04-硬件选择(20231020)
  • Vue显示FFmpeg推的流
  • C/S架构和B/S架构
  • 09 用户态跟踪:如何使用eBPF排查应用程序?
  • python自动化测试(七):鼠标事件
  • Swift如何优雅漂亮的打印字典、json
  • RabbitMQ学习04
  • conda: error: argument COMMAND: invalid choice: ‘activate‘
  • 阿里云2023年双11活动时间、活动入口、活动内容详细解读
  • 程序化交易(二)level2行情数据源接入
  • LeetCode题:88合并两个有序数组,283移动零,448找到所有数组中消失的数字
  • idea 没加载 provided的包
  • GoLong的学习之路(十二)语法之标准库 flag的使用
  • LeetCode 125 验证回文串 简单
  • stream流—关于Collectors.toMap使用详解
  • Ubuntu服务器中java -jar 后台运行Spring Boot项目
  • 精通Nginx(01)-产品概览
  • 物联网数据采集网关连接设备与云平台的关键桥梁