数据治理在学术上的发展史以及未来展望
数据治理是大数据领域中非常重要的一环,从早期的学术研究到如今的各大企业落地实践,经历了漫长的过程,数据治理的实践落地本身也是一场马拉松。
从百度学术通过精确关键词匹配,搜索中文期刊的“数据治理” 和外文期刊的“data governance”查看1980年以来的论文发布数量,2000年之前没有收录记录。2000-2009年有少量收录,2010年之后开始指数级上升。当然,百度学术的数据不一定完全,只能反映一部分情况,只能做一个简单的参考。
从论文搜索数量,以及全球各个组织机构对数据治理的研究成功来看,可以将数据治理分为三个阶段,分别是1988-1999的早期探索阶段,2000-2009你的逐步完善阶段,以及2010年之后的蓬勃发展阶段。
第一阶段 :早期探索1988-1999
1.1 MIT启动TDQM
1988年,麻省理工学院的启动了全面数据质量管理TDQM (Total Data Quality Management Program)计划,其目的是希望通过建立数据质量管理领域坚实的理论基础,以及数据管理所需的工具等帮助企业来提高数据质量。
TDQM 研究计划主要由三个部分组成:数据质量的定义、分析和改进。
数据质量定义:主要侧重于如何定义和计量数据质量。
数据质量分析:主要侧重于两方面,①鉴别和计算影响数据质量的因素。②好的数据质量对提升企业经营的好处。
数值质量改进:借助新的技术手段和重构业务系统来提高公司的数据质量。
TDQM认为需要从经济,技术和组织三个维度着手来改进数据质量。
TDQM正如他的名字那样,定义了一套全面的数据质量管理的框架,也奠定了数据治理领域的理论研究基石。
TDQM的小组成员也在不断改进,Wang R Y, Strong D M在1996年提出多维数据质量度量框架。将15个数据质量指标划分为四大维度:
- 内在数据质量(Intrinsic Data Quality):
可信度(Believability)
准确性(Accuracy)
客观性(Objectivity)
信誉度(Reputation)
- 上下文数据质量(Contextual Data Quality):
数据增值性(Value-Added)
相关性(Relevancy)
时效性(Timeliness)
完整性(Completeness)
适量性(Appropriate Amount of Data)
- 获取数据质量(Representational Data Quality):
可解释性(Interpretability)
易理解性(Ease of Understanding)
可代表性(Representational)
一致性(Consistency)
简洁性(Concise representation)
- 可访问性数据质量(Accessibility Data Quality):
可访问性(Accessibility)
访问安全性(Access Security)
这15大指标和四大分类对数据质量建设提供了重要的指导意义,对后续的研究影响颇深。
1.2 DAMA选出第一届董事会
同样是1988年,国际数据管理协会DAMA(The Global Data Management Community)正式选出了第一届董事会,DAMA初期在数据治理领域还没有太多的贡献和影响力,而如今DAMA已经在领域内人尽皆知,成为了最主流的数据治理体系。
第二阶段 :逐步完善 2000-2009
在这个阶段,数据治理概念首次出现,DGI成立,DAMA也发布了DMBOK V1,数据治理体系开始逐步完善。
2.0 “数据治理”概念首次出现
在第一阶段里,TDQM等研究机构提出的都是数据管理的概念,主要侧重在数据的全生命周期管理。而数据治理(Data Governance)的概念首次提出是在2002年,美国学者发表了一篇论文《Data warehouse governance: best practices at Blue Cross and Blue Shield of North Carolina》[1],探讨了数据仓库治理在Blue Cross 和Blue Shield两家公司的最佳实践,在这两家公司成立了专门的数据治理小组来体系化的进行数据治理的工作。
2.1 DGI 成立
2003年DGI(国际数据治理研究所)成立,并提出了DGI数据治理框架,该框架完整的描述了我们为什么要数据治理(Why)? 谁(Who)在什么情况(Where)下,使用什么方法(How),如何实施(What)的整个过程。如下图
- 数据生命周期的7个阶段:
1. 确定数据治理的价值(Develop a value statement)
2. 准备执行路线图(Prepare a roadmap)
3. 制定计划和资金准备(Plan and fund)
4. 设计(Design)
5. 部署(Deploy)
6. 治理(Govern)
7. 监控、检测、报告(Monitor, measure, report)
- 数据治理的10个通用组件:
Rules and Rules of Engagement
1. 使命愿景(Mission and Vision)
2. 目标,治理指标,成功举措和投资策略(Goals, Governance Metrics and
Success Measures, and Funding Strategies)
3. 规则,定义和政策(Data Rules and Definitions)
4. 决策权(Decision Rights)
5. 问责制(Accountabilities)
6. 控制(Controls)
People and Organizational Bodies
7. 数据利益相关者(Data Stakeholders)
8. 数据治理办公室(A Data Governance Office)
9. 数据管理委员会(Data Stewards)
Processes
10. 主动,被动和持续的数据治理流程(Proactive, Reactive, and Ongoing Data Governance Processes)
- 数据治理的12个步骤:
1. 调整政策、要求和控制(Aligning Policies, Requirements, and Controls)
2. 建立决策权(Establishing Decision Rights)
3. 建立问责制(Establishing Accountability)
4. 执行管理(Performing Stewardship)
5. 管理变革(Managing Change)
6. 定义数据(Defining Data)
7. 解决问题(Resolving Issues)
8. 规定数据质量要求(Specifying Data Quality Requirements)
9. 将治理融入技术(Building Governance Into Technology)
10. 关注利益相关者(Stakeholder Care)
11. 交流(Communications)
12. 衡量和报告价值(Measuring and Reporting Value)
2.2 DAMA-DMBOK发布
2009年,DAMA-DMBOK的发布对数据治理领域影响深远。它将数据治理的工作梳理成了一套体系化的标准策略,对数据治理人员起到了很好的指导作用。它体系化的定义了数据治理成功的六大核心要素和九大数据管理职能,这些都概况在一张广泛流传的DMBOK轮子图里。
- 六大核心要素:
战略(Strategy)
组织和角色(Organization & Roles)
政策和标准(Policies & Standards)
项目和服务(Projects & Services)
问题(Issues)
估值(Valuation)
- 九大数据管理职能:
数据架构管理:企业数据模型、价值链分析、相关的数据架构
数据开发:数据分析、建模、设计、实施
数据操作管理:获取、恢复、调优、保留、清理
数据安全管理:标准、分类、管理、授权、审计
参考数据和主数据管理:外部规范、内部规范、客户数据、产品数据、维度管理
数据仓库与商务智能管理:架构、实施、培训和支持、监控和调优
文档和内容管理:获取和存储、备份和恢复、内容管理、检索、保留
元数据管理:架构、整合、控制、交付
数据质量管理:规范、分析、度量、改进
第三阶段:蓬勃发展 2010-至今
在这个阶段,数据治理的理论框架已经比较成熟,各国政府、行业机构、开始全面推动数据治理行业的规范发展。大量的企业组织也开始进行数据治理的实践落地。
3.1 IBM 数据治理统一流程
2010年9月,IBM发布了《数据治理统一流程》,将数据治理分为目标、支持条件、核心规程和支持规程四个层次。
IBM的数据治理统一流程列出了10个必要步骤和4个可选的专题
4个可选专题是:主数据治理、分析治理、安全和隐私以及信息生命周期治理。
3.2《数据治理白皮书》
2015年5月,中国代表团在SC40/WG1第三次工作组会议上正式提交了《数据治理白皮书》国际标准研究报告。
白皮书阐述了数据治理的核心概念:数据通过服务产生价值,确定了数据是资产的理念。在数据转换成价值的过程中对其进行控制、评价和指导是数据治理的基本概念。
同时白皮书还提出来数据治理模型和框架:模型有三个框架组成:原则、范围、实施和评估
3.3 中国数据治理标准化元年 [2018]
- 2018年3月15日,国家标准化管理委员会:国家标准《数据管理能力成熟度评估模型》(DCMM)
DCMM数据管理能⼒成熟度评估模型从组织、制度、流程和技术四个维度定义了数据战略、数据治理、数据架构、数据应⽤、数据安全、数据质量、数据标准和数据⽣存周期⼋个核⼼能⼒域。见图111,并对每项能力域进行了二级过程项(28个过程项)见图222,和发展等级的划分(5个等级)以及相关功能介绍和评定指标(441项指标)的制定。
- 2018年5月21日|中国银行业监督管理委员会:《银行业金融机构数据治理指引》
- 2018年,国家市场监督管理总局,中国国家标准化管理委员会. 发布《信息技术服务 治理 第5部分:数据治理规范》GB/T 34960.5-2018。
3.4 DAMA-DMBOK V2 发布
2020年,DAMA正式发布了DMBOKV2,在2017年,DAMA对DMBOK进行了更新,指导2020年才正式发布V2版本。这个版本相比11年前的V1版本,更加体系化,还增加了大数据模块。
相较于V1版本,车轮图里面的管理职能新增了数据集成与互用性(Data integration & Interoperability)
基于DMBOKV2的车轮图,Peter Aiken 开发了定义这些功能区域之间关系的 DMBOK 金字塔,描述了各个管理职能之间的关系。
金字塔的顶端是数据分析和大数据,目的是为了实现业务价值。而数据治理则在最底端,数据治理是整个数据系统的基座。
DMBOKV2围绕数据治理的八大环境,构建了进化版车轮图
3.5 中国的继续探索
《数据治理标准化白皮书(2021年)》 推出4W1H模型
展望未来
过去学者也业界专家们对数据治理领域做出了巨大的贡献,如今数据治理已经成为大数据领域火热的话题之一,将来的数据治理该如何发展,面临哪些挑战和机遇呢?个人认为主要有两个,一个是精益数据治理,一个是多模态数据治理。
数据治理的挑战与机遇
挑战1:
无论是国外的DGI、DAMA 还是国内的DCMM等数据治理框架,都是非常庞大,要实施起来需要投入巨大的人力物力,并且需要较长期才能看到价值,整体来说,这些框架的落地面临投资大,周期长的问题。
机遇1:
缺乏一套精益数据治理模型,来像《精益创业》一样,以最小化代价来验证数据治理的价值,再一步一步的迭代的模型和方法论。
挑战2:
如今AI的已经成指数级的速度发展,特别是ChatGPT的爆火,将AI推向了高潮,企业纷纷进行AI布局,AI背后是大量的数据支撑,而AI对数据的质量要求更高,只有高质量的数据,才能训练出更强大的AI。
AI的数据来源更加多元化,文本、音频、视频、图像等多模态数据都是AI的来源和应用,这些数据质量的控制还是一个难题
机遇2:
面向AI多模态的数据治理模型和技术
部分参考资料:
[1] Watson H J , Fuller C , Ariyachandra T . Data warehouse governance: best practices at Blue Cross and Blue Shield of North Carolina[J]. Decision support systems, 2004, 38(3):p.435-450.
[2] DAMA官网https://www.dama.org/
[3] DGI官网https://datagovernance.com/
[4] DCMM 官网 http://www.dcmm.org.cn/