阿里数据仓库-数据模型建设方法总结
一、大数据领域建模综述
1.1 为什么需要数据建模
-
有结构地分类组织和存储是我们面临的一个挑战。
-
数据模型强调从业务、数据存取和使用角度合理存储数据。
-
数据模型方法,以便在性能、成本、效率之间取得最佳平衡
-
成本:良好的数据模型能极大地减少不必要的数据冗余,也能实现计算结果复用,极大地降低大数据系统中的存储和计算成本。
-
效率:良好的数据模型能极大地改善用户使用数据的体验,提高使用数据的效率。
-
质量:良好的数据模型能改善数据统计口径的不一致性,减少数据计算错误的可能性。
-
1.2 关系数据库系统和数据仓库
1.3 从 OLTP 和 OLAP 系统的区别看模型方法论的选择
-
OLTP 系统通常面向的主要数据操作是随机读写,主要采用满足 3NF 的实体关系模型存储数据,从而在事务处理中解决数据的冗余和一 致性问题:
-
OLAP 系统面向的主要数据操作是批量读写,事务处理中 的一致性不是OLAP 所关注的,其主要关注数据的整合,以及在一次性的复杂大数据查询和处理中的性能,因此它需要采用一些不同的数据建模方法。