当前位置: 首页 > article >正文

Hadoop MapReduce知识预览,WordCount词频统计案例

文章目录

  • Mapreduce
    • 阶段组成:
    • MapReduce实例进程
    • MapReduce优缺点
    • MapReduce编程案例-WordCount词频统计
      • 实现思路
      • 操作步骤

Mapreduce

MapReduce先分再和、分而治之的思想

Map:对一组数据元素进行某种重复式的处理

Reduce:对Map的中间结果进行某种进一步的结果整理

  • MapReduce 数据类型
    -> kv键值对形式

阶段组成:

一个MapReduce编程模型中只能包含一个Map阶段和一个Reduce阶段,或者只有Map阶段

如果用户的业务逻辑非常复杂,那就只能多个MapReduce程序串行运行

Mapper > Reducer > Mapper > Reducer

MapReduce实例进程

  • MRAppMaster:负责整个MR程序的过程调度及状态协调
  • MapTask:负责Map阶段的整个数据处理流程
  • ReduceTask:负责Reduce阶段的整个数据处理流程

MapReduce优缺点

  • MapReduce特点
    • 易与编程,简单实现一些接口,就可以完成一个分布式程序
    • 良好的扩展性,可以通过增加机器来扩展计算能力
    • 高容错性,任何单一节点宕机不影响整个作业任务的完成
    • 适合海量数据离线处理
  • MapReduce缺点
    • 实时计算性能差,主要用于离线作业,无法做到秒级的数据响应
    • 不能进行流式计算,MapReduce主要针对离线静态数据集

MapReduce编程案例-WordCount词频统计

实现思路

  1. Map阶段核心:把输入的数据经过切割,全部标记为1,因此输出为<word, 1>
  2. Shuffle阶段核心:经过MR程序内部自带的排序分组等功能,把key相同的作为一组数据构成新的k-v键值对
  3. Reduce阶段核心:处理Shuffle完的一组数据,该组数据就是该单词所有的键值对。对所有的1进行累加求和,就是单词出现的总次数
    在这里插入图片描述

操作步骤

  1. 新建一个需要进行词频统计的文件,输入内容
    在这里插入图片描述

  2. 将文件上传至HDFS文件系统中
    在这里插入图片描述

  3. 运行Hadoop内置案例wordcount,

    • $HADOOP_HOME/share/hadoop/mapreduce路径下,名为hadoop-mapreduce-examples-*.jar
      在这里插入图片描述

    • 运行实例:

    hadoop jar hadoop-mapreduce-examples-2.7.1.jar wordcount /input /output
    

    其中 wordcount参数意思是指定运行词频统计的实例,

    /input为需要进行词频统计的文件所在路径,

    /output为结果输出路径,不需要手动创建

    在这里插入图片描述

    • 查看结果
      在这里插入图片描述

http://www.kler.cn/a/3471.html

相关文章:

  • STM32-CAN总线
  • 麒麟监控工具rpm下载
  • 【JDBC】数据库连接的艺术:深入解析数据库连接池、Apache-DBUtils与BasicDAO
  • 澎峰科技计算软件栈与沐曦GPU完成适配和互认证
  • simulink入门学习01
  • Vscode配置continue运行ollama部署的Qwen2.5
  • 用JS+CSS打造你自己的弹幕王国,让网页动起来!
  • 蓝桥杯刷题冲刺 | 倒计时14天
  • 【蓝桥杯集训·周赛】AcWing 第96场周赛
  • 微软Bing加入ChatGPT后如何用?教你12种问法黄金公式学会了,又能研究新副业赚钱又能加快学习速度
  • 【数据结构】链表OJ题
  • 中国石油大学(北京)第三届“骏码杯”程序设计竞赛(同步赛)
  • Day927.如何进行组件化分析和设计? -系统重构实战
  • Kafka介绍
  • 提升网站性能:Nginx五种高效负载均衡策略
  • Maven依赖管理
  • css绘制一个Pinia小菠萝
  • Matter名词解释
  • 初识HTTP协议
  • 大数据的常用算法(分类、回归分析、聚类、关联规则、神经网络方法、web数据挖掘)
  • 数组(完全二叉树)向下建堆法与堆排序O(N*logN)
  • redis 集群
  • [数据结构] 用两个栈实现队列详解
  • Prometheus cadvisor容器监控和node-exporter节点监控
  • STM-32:按键控制LED灯 程序详解
  • Linux的基础知识