当前位置: 首页 > article >正文

复习打卡大数据篇——Apache Hadoop

1. Hadoop简介

Hadoop概念:

Hadoop是一个分布式系统基础架构,主要是为了解决海量数据的存储和海量数据的分析计算问题。组件包括:HDFS,是一个具有高可靠性、高吞吐量的分布式文件系统,用于数据存储;MapReduce用于处理业务逻辑运算;YARN负责作业调度与集群资源管理。

Hadoop特性:

  • 扩容能力:Hadoop是在可用的计算机集群间分配数据并完成计算任务的,这些集群可用方便的扩展到数以千计的节点中。
  • 成本低:Hadoop通过普通廉价的机器组成服务器集群来分发以及处理数据,以至于成本很低。
  • 高效率:通过并发数据,Hadoop可以在节点之间动态并行的移动数据,使得速度非常快。
  • 可靠性:能自动维护数据的多份复制,并且在任务失败后能自动地重新部署(redeploy)计算任务。所以Hadoop的按位存储和处理数据的能力值得人们信赖。

Hadoop集群简介:

 HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起。

HDFS集群:解决了海量数据存储 分布式存储系统

  • 主角色:namenode(NN)
  • 从角色:datanode(DN)
  • 主角色辅助角色"秘书角色":secondarynamenode (SNN)

YARN集群:集群资源管理 任务调度

  • 主角色:resourcemanager(RM)
  • 从角色:nodemanager(NM)

Hadoop部署模式:

  • Standalone mode(独立模式):又称为单机模式,仅1个机器运行1个java进程,主要用于调试。
  • Pseudo-Distributed mode(伪分布式模式):也是在1个机器上运行HDFS的NameNode和DataNode、YARN的 ResourceManger和NodeManager,但分别启动单独的java进程,主要用于调试。
  • Cluster mode(集群模式):集群模式主要用于生产环境部署。会使用N台主机组成一个Hadoop集群。这种部署模式下,主节点和从节点会分开部署在不同的机器上。
  • 高可用(持续可用)集群 HA :在分布式的模式下给主角色设置备份角色,实现了容错的功能 解决了单点故障,保证集群持续可用性。

集群webUI:

一旦Hadoop集群启动并运行,可以通过web-ui进行集群查看:

  • NameNode    http://nn_host:port/    默认9870
  • ResourceManager    http://rm_host:port/    默认 8088
  • jobhistoryserver     默认 19888


http://www.kler.cn/a/447075.html

相关文章:

  • LabVIEW伸缩臂参数监控系统
  • 中国人工智能学会技术白皮书
  • Android -- 双屏异显之方法二
  • springboot 3 websocket react 系统提示,选手实时数据更新监控
  • fastdds:idl
  • maven-resources-production:ratel-fast: java.lang.IndexOutOfBoundsException
  • leetcode之hot100---240搜索二维矩阵II(C++)
  • 周末总结(2024/12/21)
  • Apache solr XML 实体注入漏洞
  • .NET 8 获取CPU序列号和主板序列号异常问题
  • 2110 加分二叉树
  • 重拾设计模式--组合模式
  • Redis存在安全漏洞
  • MyBatis 的优缺点
  • 【中标麒麟服务器操作系统实例分享】java应用DNS解析异常分析及处理
  • 前端yarn工具打包时网络连接问题排查与解决
  • Hadoop实现WordCount详解
  • HTTP请求的奇幻旅程:从发起至响应的全方位探索
  • 算法 计算大的长方形容器中,存放一排小长形容器,计算出小长形容器中最后一个元素的x坐标的位置的实现方法
  • linux-----进程execl簇函数
  • mysql的事务和存储引擎+备份
  • Audiocraft智能音频和音乐生成工具部署及使用
  • C# OpenCV机器视觉:图像平滑
  • STM32HAL I2C函数
  • STM32裸机系统采用滴答定时器延时
  • Ubuntu安装及删除httpd(Apache)