当前位置: 首页 > article >正文

数据湖的概念(包含数据中台、数据湖、数据仓库、数据集市的区别)--了解数据湖,这一篇就够了

文章目录

  • 一、数据湖概念
    • 1、企业对数据的困扰
    • 2、什么是数据湖
    • 3、数据中台、数据湖、数据仓库、数据集市的区别


网上看了好多有关数据湖的帖子,还有数据中台、数据湖、数据仓库、数据集市的区别的帖子,发现帖子写的都很多,而且专业名词很多,不是一般人还真的看不懂。

下面我以简单的语言总结概括一下:

一、数据湖概念

1、企业对数据的困扰

数据孤岛:数据分散度过高,无法集中利用(解决方案:可以通过ETL等程序将各个数据孤岛的数据抽取到数仓,进行集中分析)

数据价值的提升:数据增长太快,导致原本遗忘在角落中的数据慢慢有了价值

非结构化数据分析:数仓只适合处理结构化数据,不适合处理非结构化数据

想要海量保留原始数据:由于大规模存储的成本以及大数据技术尚未发展起来的原因,造成企业对于数据的存储都是精简的,无法大量长期保存原始数据

企业的要求:
1、数据的集中存储,可以解决数据孤岛
2、成本可控、维护简单
3、可以存储任意结构的数据
4、能够支持大多数框架(比如:spark,flink等)

而为了迎合这种需求,提出了数据湖的概念

2、什么是数据湖

一句话总结:一种能够满足海量存储和海量分析的系统架构方案(不是数据库,也不是技术架构,是一种概念、一种方案和思路)
切记!!!!!数据湖不是框架,也不是技术的实现,只是一种思想,一种方案!!!!

3、数据中台、数据湖、数据仓库、数据集市的区别

具体区别,看下面一张图即可:
在这里插入图片描述

写时模式:数据写入前已经定义好Schema,更改Schema成本高

读时模式:数据在利用的时候再定义Schema,灵活方便(比如:SparkSQL)

所以在数据湖的实现方案中,SparkSQL占了很大份额

以AWS(亚马逊旗下的一个平台)为例,简单说明一下数据中台和数据仓库的区别:
在这里插入图片描述


http://www.kler.cn/a/417072.html

相关文章:

  • 81页精品PPT | 华为流程与信息化实践与架构规划分享
  • [LLM面试题] 指示微调(Prompt-tuning)与 Prefix-tuning区别
  • 解锁 DeepSeek 模型高效部署密码:蓝耘平台深度剖析与实战应用
  • 微信小程序案例2——天气微信小程序(学会绑定数据)
  • Vue3 Ref全家桶详解:从入门到实战
  • c++ haru生成pdf输出饼图
  • 实时数据开发|Flink实现数据输出--DataSinks操作
  • 实现PDF文档加密,访问需要密码
  • vue.js学习 (day 15)
  • 量化交易系统开发-实时行情自动化交易-8.2.发明者FMZ平台
  • rabbitMq两种消费应答失败处理方式
  • 制作苹果IOS.APP所使用步骤和方法-有步骤视情况待完善
  • 三维渲染中顺序无关的半透明混合(OIT)(二——Stencil Route)
  • 电脑文件自动提取器介绍
  • WEB攻防-通用漏洞XSS跨站绕过修复http_onlyCSP标签符号
  • 计算机毕业设计Python异常流量检测 流量分类 流量分析 网络流量分析与可视化系统 网络安全 信息安全 机器学习 深度学习
  • 家校通小程序实战教程04教师管理
  • 【DB】根据某字段生成序号
  • 一万台服务器用saltstack还是ansible?
  • 倍思无线蓝牙耳机测评:“静”只是它的闪光点之一!
  • Doge东哥wordpress主题
  • 爬虫XPath相关
  • Android笔记(三十四):封装带省略号图标结尾的TextView
  • 电机瞬态分析基础(6):坐标变换(续)
  • 从0到1搭建webpack
  • ESLint 配置文件全解析:格式、层叠与扩展(3)