当前位置：首页 > article >正文

大数据学习(34)-mapreduce详解

article 2025/1/13 16:56:01

&&大数据学习&&

🔥系列专栏： 👑哲学语录: 承认自己的无知，乃是开启智慧的大门
💖如果觉得博主的文章还不错的话，请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞

mapreduce本身工作原理相对于spark来说简单很多，计算过程大概包括map阶段和reduce阶段。

一、任务启动阶段

Client用户端发起请求：
- MapReduce作业的启动由Client端（即用户或应用程序）发起。Client端会提交作业请求，包括作业的配置信息、输入数据的位置等。
资源申请与分配：
- YarnRunner接受Client端的请求，并向ResourceManager申请所需的资源。
- ResourceManager检索当前集群的资源情况，为作业分配资源路径，并通知YarnRunner。
作业分片与MRAppMaster启动：
- YarnRunner根据输入数据的大小和集群的配置，对输入数据进行分片（split），每个分片将作为一个Map任务的输入。
- YarnRunner申请启动MRAppMaster，该组件负责监控和管理整个作业的执行过程。
MapTask启动：
- ResourceManager根据分片和作业信息，选择数据所在的节点启动MapTask。MapTask在数据所在的节点上运行，以减少数据传输的开销。

二、Map阶段

数据读取与处理：
- 每个MapTask读取自己节点上的分片数据，并进行处理。处理过程包括数据的split、map函数的执行、数据的分区等。
- 在map函数中，输入数据被转换为键值对（key-value pair）的形式，并经过自定义的map逻辑处理，输出新的键值对。
数据写入环形缓冲区：
- MapTask的输出结果首先写入一个内存环形缓冲区。当缓冲区中的数据量达到一定的阈值时（如80%），会触发一个溢写（spill）操作，将数据写入磁盘。
数据排序与合并：
- 在溢写过程中，MapReduce框架会对数据进行排序和合并操作。排序是基于key进行的，以确保相同key的数据能够聚集在一起。
- 合并操作是将多个溢写文件合并为一个有序的文件，以减少后续处理的数据量。

三、Shuffle阶段

数据分发：
- Shuffle阶段负责将MapTask的输出结果分发到相应的ReduceTask。分发过程是基于key的分区进行的，确保相同key的数据被发送到同一个ReduceTask。
数据排序与归并：
- 在ReduceTask端，接收到的数据会进行进一步的排序和归并操作，以确保数据的正确性和有序性。

四、Reduce阶段

ReduceTask启动：
- 当MapTask全部完成后，MRAppMaster会申请启动ReduceTask。ReduceTask的数量由作业的配置决定，通常与Reduce的输出结果数量相关。
数据处理与输出：
- ReduceTask对接收到的数据进行处理，包括合并相同key的value列表、执行自定义的reduce逻辑等。
- 处理完成后，ReduceTask将结果写入到HDFS或其他存储系统中。

五、任务结束阶段

监控与汇报：
- MRAppMaster持续监控每个Reduce节点的执行情况，并在所有任务完成后向上汇报。
资源释放与任务结束：
- ResourceManager注销MRAppMaster，并释放其占用的资源。YarnRunner接收任务执行完成的信息，并返回给Client端。Client端接受信息后，表示作业执行完成。

MapReduce的工作流程是一个复杂而有序的过程，涉及多个组件和阶段的协同工作。通过合理的配置和优化，MapReduce可以高效地处理大规模数据，满足各种数据处理和分析的需求。

http://www.kler.cn/a/501013.html

相关文章：

前端工具汇总

每日十题八股-2025年1月12日

【Powershell】Windows大法powershell好（二）

[免费]微信小程序(高校就业)招聘系统(Springboot后端+Vue管理端)【论文+源码+SQL脚本】

一分钟学会文心一言API如何接入，文心一言API接入教程

从预训练的BERT中提取Embedding

指令的修饰符

STM32F103ZET6战舰版单片机开发板PCB文件电路原理图

基类指针指向派生类对象，基类指针的首地址永远指向子类从基类继承的基类首地址

【Hystrix-2】使用 Hystrix 实现服务容错与降级：Java 案例代码详解

30_Redis哨兵模式

未来十年：科技重塑生活的全景展望

如何实现图片选择功能

【Rust自学】11.10. 集成测试

js逆向说明

Python中定位包含特定文本信息的元素

网络安全 | DevSecOps：将安全融入DevOps开发生命周期

5. DL深度学习（Deep Learning）

【2025 Rust学习 --- 15 迭代器的消耗】

[创业之路-242]：《华为双向指挥系统》-1-组织再造-企业普遍采用的5种组织结构形式

苍穹外卖07——来单提醒和客户催单（涉及SpringTask、WebSocket协议、苍穹外卖跳过微信支付同时保证可以收到订单功能）

排序算法（归并排序、快速排序）

Type-C双屏显示器方案

android studio使用Material Design中的ToolBar

CentOS安装Git

VUE3 组合式 API 中，ref 和 reactive 是两种核心的响应式数据处理方式