当前位置：首页 > article >正文

系统架构设计师大数据架构篇一

article 2025/1/19 16:57:39

🌐大数据架构

大数据处理系统分析 🔍

大数据处理系统三大挑战 🚀

非结构化数据处理：如何处理非结构化和半结构化数据。
复杂性与不确定性：大数据复杂性、不确定性特征描述的刻画方法和大数据的系统建模。
异构性影响：数据异构性与决策异构性的关系对大数据知识发现与管理决策的影响。

大数据处理系统架构八大特征 🏗️

鲁棒性和容错性 🛡️：系统能够在组件失败时继续运行。
低延迟读取和更新能力 ⏱️：快速响应数据读取和更新请求。
横向扩容 🌟：系统能够通过增加节点来扩展处理能力。
通用性 🌍：适用于多种类型的数据处理任务。
延展性 📈：系统设计允许功能和性能的扩展。
即席查询能力 🔎：支持用户即时发起的查询请求。
最少维护能力 🔧：系统设计注重减少维护工作量。
可调试性 🐛：系统提供有效的错误定位和调试手段。

Lambda 架构 🌈

Lambda 架构介绍 📖

Lambda 架构提供了一个能够满足大数据系统关键特性的架构，包括高容错、低延迟、可扩展等。它整合离线计算与实时计算，融合不可变性、读写分离和复杂性隔离等原则，可集成 Hadoop、Kafka、Spark、Storm 等各类大数据组件。

Lambda 架构的三层 📚

处理层 (Batch Layer) 📊：负责批处理离线数据。
加速层 (Speed Layer) ⚡：负责处理实时数据流，提供快速查询。
服务层 (Serving Layer) 📡：整合批处理层和加速层的结果，提供统一的数据查询和服务接口。

设计Batch Layer 和 Speed Layer 的依据 🛠️

容错性 🔄：Speed Layer 中处理的数据也不断写入Batch Layer，实现错误修正。
复杂性隔离 🏭：通过分开Batch Layer 和 Speed Layer，隔离复杂性，提高系统的鲁棒性和可靠性。

批处理层（Batch Layer） 🏛️

基础层，处理离线数据。
数据集3大属性：
- 原始数据
- 数据不可变
- 永远是真实数据。
特点：
- Monoid 特性 🔗：支持分布+合并操作。
- 高可靠性 💾：使用容错性较强的分布式文件系统。
- 长时间窗口 🕒：不要求实时性，可使用较长时间窗口。
- 复杂计算 🧮：可进行复杂的数据计算和分析任务。

伪代码示例 (Batch Layer)

function processBatchData():
    rawData = readDataFromSource("HDFS")
    processedData = transform(rawData)
    storeData(processedData, "HDFS")

function storeData(data, storageSystem):
    // 存储数据到分布式文件系统
    storageSystem.save(data)

加速层（Speed Layer） 🚀

实时处理层，负责处理实时数据流。
特点：
- 实时性 ⏲️：快速响应查询请求。
- 部分数据集 📈：处理部分数据，生成增量更新。
- 简单计算 📊：执行较简单的计算任务。

伪代码示例 (Speed Layer)

function processRealTimeData(stream):
    for data in stream:
        updatedData = processData(data)
        serveData(updatedData)

function serveData(data):
    // 将数据提供给服务层
    servingLayer.update(data)

服务层（Serving Layer） 📱

最上层，提供数据查询和服务接口。
特点：
- 统一查询接口 🔗：整合批处理层和加速层的结果。
- 数据合并 📑：保证查询结果的完整性和一致性。
- 数据展示和分发 📊：展示查询结果，提供数据分发接口。

伪代码示例 (Serving Layer)

function queryData(query):
    batchData = batchLayer.getData()
    speedData = speedLayer.getData()
    result = mergeData(batchData, speedData)
    return result

function mergeData(batchData, speedData):
    // 合并批处理数据和实时数据
    combinedData = combine(batchData, speedData)
    return combinedData