当前位置：首页 > article >正文

大数据架构Lambda-架构师（六十九）

article 2025/2/22 2:06:23

随着信息时代技术的发展，数据量的快速增加逐渐飙升到了惊人的数量级别。并且数据的采集与处理技术还在更新加快。大数据中，结构化占比百分之15左右，其余百分之85都是非结构化数据，他们大量存在于社交网络、互联网和电子商务等领域。

大数据系统架构的特征

鲁棒性和容错性（Robust and Fault-tolerant）

对于大规模分布式系统中，机器可能存在宕机，但系统需要健壮性，行为正确，即使遇到了机器错误。机器错误和人错误都是存在的，每天都难以避免。

低延迟读取和更新能力

有的需要毫秒的更新能力，有的允许几个小时的延迟更新，只要有低延迟需求，系统应该保证鲁棒性。

横向扩展

当负载增大的时候，通常可以通过增加机器数量来横向扩展。

通用性

要支持绝大多数应用程序，包括金融领域，社交领域和电子商务。

延展性

有新的需求出现时候，可以把新的功能加入到系统。

查询能力

用户可以按照自己的需求进行查询，可以产生更高的价值。

最少维护能力

系统在大多数时候保持平衡，减少系统的维护次数重要途径。

可调式性

系统在运行中，产生的每一个值，都是可追踪调试的。

Lambda架构

Lambda架构主要分为三层，批处理层、加速层和服务层。

批处理层（Batch Layer）：存储数据集，预先计算查询函数，并构建查询对应的view。Batch Layer适合批量处理离线数据。当很多场景需要实时查询的时候，则需要Speed Layer
加速层（Speed Layer）：batch layer处理的是全体数据，speed layer处理的是增量数据。Speed layer接收到数据后会不断更新Real-time view。
服务层（serving layer）：Serving layer用于合并batch view 和real-time view中的结果数据集到最终数据集。

批处理

批处理有两个核心功能，存储数据集和生成batch View。该层主要负责主数据集，主数据集有以下三个属性：

数据是原始的
数据是不可变的
数据永远真实的

加速层

它存储实时视图并传入数据流，以便更新这些视图。

他们的区别是什么呢？

speed layer处理数据是增量数据，batch layer是全体数据。
Speed layer为了效率，接受时候更新real Time view，而batch layer是根据全体离线数据直接得到batch view。

分为加速层和批量层的好处有哪些？

容错性：当speed layer重新计算后，当前的real-time view就可以丢弃，而batch view也是重新计算的。

复杂性隔离：批量处理离线数据很好掌握，加速层处理增量数据隔离出来。

Scale out：横向扩展，通过增加机器来扩展，而不是增加机器性能scale up。

服务层

用于响应用户查询，合并batch view和real-time view中的结果集得到最终数据集。

Lambda架构实现？

Hadoop(HDFS)用于存储数据集，Spark（或Storm）构成速度层（Speed Layer），HBase作为服务层，有Hive创建可查询视图。

Hadoop设计成适合运行在通用分布式文件系统（Distributed File System），与目前的分布式系统有很多共同点，HDFS是一个具有高度容错性的系统，能提供吞吐量的访问数据。

Apache Spark专门为大数据设计的快速计算引擎。

HBase-Hadoop database，是一个高可用、高性能、面向列、可伸缩的分布式系统。

Lambda优点：

容错性好：一旦发生错误，从修复算法或从头计算开始。
查询灵活度高：批处理可以针对任何数据临时查询。
易伸缩：所有批处理、加速层和服务层都很容易扩展。
扩展：添加视图很容易，只需要给主数据添加新函数。

缺点：

全场景覆盖带来编码开销。
针对具体场景重新训练一遍益处不大。
重新部署和迁移成本高。

Lambda架构与其他架构比较：

事件溯源与lambda架构

整个系统以事件驱动来完成，业务数据是事件产生的视图。

CQRS与lambda架构

CQRS架构分离了对数据进行的读操作和写操作，将其改变数据模型状态命令对于模型状态查询实现了分离。

http://www.kler.cn/a/132264.html

相关文章：

[C/C++]数据结构链表OJ题:随机链表的复制

ES6 导入导出

redis运维(九)字符串(二)字符串过期时间

为什么C++标准库中atomic shared_ptr不是lockfree实现？

填充每个节点的下一个右侧节点指针

wpf devexpress Property Grid创建属性定义

Oracle OCP / MySQL OCP认证容易通过吗

es 算法函数有点不太懂了没有大神给指点一下

【2】SM2验签工具和RSA验签工具

【漏洞复现】IP-guard WebServer 远程命令执行

element el-date-picker报错Prop being mutated:“placement“快速解决方式

rviz是如何获取图像里选择的点云的3D坐标的

vue3 - pinia 中的 storeToRefs

五、函数的介绍

大数据毕业设计选题推荐-机房信息大数据平台-Hadoop-Spark-Hive

初识MongoDB及安装

Struts 类型转换之局部和全局配置

Redis：java和SpringBoot中使用Redis

小程序里面循环使用ref的话获取不到

java：springboot单元测试spring-boot-starter-test