当前位置：首页 > article >正文

MapReduce完整工作流程

article 2025/3/4 13:06:29

1、mapreduce工作流程(终极版)

0. 任务提交

1. 拆-split逻辑切片--任务切分。 FileInputFormat--split切片计算工具 FileSplit--单个计算任务的数据范围。

2. 获得split信息和个数。

MapTask阶段

1. 读取split范围内的数据。k(偏移量)-v(行数据)

关键API：TextInputFormat。

2. 循环调用mapper.map(k,v) 关键代码：

while(xx.next){ mapper.map(k,v); }

3. mapper.map执行完毕后，输出k-v，调用k-v的分区计算

Partitioner.getPartition(k,v,reduceTask数量)--分区号。

4. 将输出k-v{分区号}，存入临时缓冲区。环形缓冲区。

MapOutputBuffer--环形缓冲区。

5. 如果缓冲区写满80%(mapper代码执行完毕)，触发spill溢写过程。

① 读取k-v{分区号}，对溢写范围内的数据进行排序。

② 存放到本地磁盘文件中，产生分区内的溢写文件。

6. 溢写完毕后，产生多个溢写文件

① 将多个溢写文件合并成1个有序---归并排序。

② combiner(分区合并调用reducer--局部reduce操作)【如果开启】

结果：每个MapTask执行完毕后本地磁盘，每个分区(目录)内只有一个文件。(Key有序)

ReduceTask阶段

1. 从各个MapTask节点下载对应分区的结果文件。

MapTask(分区0文件)

MapTask(分区0文件)→ ReduceTask-0

MapTask(分区0文件)

2. merge操作

① 排序

② 按照key分组

③ 将key相同的多个value--->[v,v,v,v]

3. 循环调用Reducer.reduce方法处理数据

while(xxx){ reducer.reduce(k,vs); }

4. reducer.reduce输出key-value，将数据写入HDFS中。

TextOutputForamt 格式化数据的工具类

FileOutputFormat 指定输出HDFS的路径位置。

整个过程简述：

任务提交，根据文件大小切分Split逻辑切片，一个逻辑切分会启动一个Maptesk任务，Maptask会循环读取block块上的数据输出key和value，然后进行分区计算将输出的k、v存入临时缓冲区，缓冲区写满80%后会产生溢写文件（多个），然后将不同分区的多个溢写文件合并为一个溢写文件作为该阶段的输出文件。通过网络传输进入reduceTesk阶段，将不同split逻辑切分中的相同的分区号文件进行合并为一个文件（merge操作），作为reduceeTesk的输入文件，循环调用Reducer.reduce方法执行任务，将数据写入HDFS中。