大数据学习(80)-数仓分层
🍋🍋大数据学习🍋🍋
🔥系列专栏: 👑哲学语录: 用力所能及,改变世界。
💖如果觉得博主的文章还不错的话,请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞
一、数仓分层
数据仓库分层是一种组织和管理数据仓库的结构化方法,它将数据仓库划分为不同的层次或级别,每个层次具有特定的功能和目的。这种分层方法有助于管理数据仓库中的数据流程、数据处理和数据访问,并提供一种清晰的结构来支持数据管理和分析需求。
一个好的分层架构,要有以下好处:
1 清晰数据结构 :
数仓每一层都有对应的作用,方便在使用时更好的定位与了解。
2 数据血缘追踪:
清晰知道表或任务上下游,方便排查问题,知道下游哪个模块在使用,提升开发效率以及后期管理维护。
3 减少重复开发:
提高数据复用性,完善好数据仓库的中间层,减少后期不必要的开发,从而减少资源消耗,保障口径、数据统一。
4 复杂问题简单化:
将复杂问题拆解成多个步骤来完成,每一层处理单一步骤,当数据问题出现时,只需从问题出现处开始修复。
5、屏蔽原始数据的影响
数据仓库对接的源系统众多,且每个源系统的表命名、字段命名、字段含义等各有不同,通过数据仓库的分层设计,从底层来规范和屏蔽所有这些复杂性,保证下游数据用户使用数据的便捷和规范。如果源系统发生变更,只需要再相应的数据仓库层来处理,对下游用户透明无感。
数据仓库分层用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据;不分层的话,如果源业务系统的业务规则发生变化将会影响整个数据清洗过程,工作量巨大。
通过数据分层管理可以简化数据清洗的过程,把一个复杂的工作拆成了多个简单的工作,把一个大的黑盒变成了一个白盒,每一层的处理逻辑都相对简单和容易理解,这样比较容易保证每一个步骤的正确性,当数据发生错误的时候,往往我们只需要溯源并局部调整某个步骤即可。
二、数据建仓基本流程
参考:如何确定数仓构建的目标与需求_智能数据建设与治理 Dataphin(Dataphin)-阿里云帮助中心
四、不同产品分层案例
1、阿里Dataphin(智能数据建设与治理)
2、帆软FineDataLink(一站式数据集成平台) 
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.kler.cn/a/595591.html 如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!