Hadoop不同版本的区别
免费springboot,vue,springcloudalibaba视频,有兴趣可以看看
<!-- springboot,springboot整合redis,整合rocketmq视频: -->
https://www.bilibili.com/video/BV1nkmRYSErk/?vd_source=14d27ec13a4737c281b7c79463687112
<!-- springcloudalibaba,openfeign,nacos,gateway,sso视频:-->
https://www.bilibili.com/video/BV1cFDEYWEkY/?vd_source=14d27ec13a4737c281b7c79463687112
<!-- vue+springboot前后端分离视频:-->
https://www.bilibili.com/video/BV1JLSEYJETc/?vd_source=14d27ec13a4737c281b7c79463687112
<!-- shiro视频:-->
https://www.bilibili.com/video/BV1YVUmYJEPi/?vd_source=14d27ec13a4737c281b7c79463687112
Hadoop的不同版本之间存在一些显著的区别,以下是一些主要的版本差异:
Hadoop 1.x vs Hadoop 2.x
- YARN的引入:Hadoop 2.0引入了YARN(Yet Another Resource Negotiator),将Hadoop从以MapReduce为中心的平台转变为更加多功能的数据处理平台。
- 容错机制:Hadoop 1.x主要通过复制来处理容错,而Hadoop 2.x可以通过Erasure编码处理容错。
- 存储方案:Hadoop 1.x使用3X副本方案,而Hadoop 2.x支持HDFS中的擦除编码,存储开销从200%降低到50%。
- 时间线服务:Hadoop 2.x使用具有可伸缩性问题的旧时间轴服务,而Hadoop 3.x改进了时间线服务v2,提高了时间线服务的可扩展性和可靠性。
Hadoop 2.x vs Hadoop 3.x
- Java版本支持:Hadoop 2.x的最低Java支持版本是Java 7,而Hadoop 3.x的最低支持版本是Java 8。
- 数据平衡:Hadoop 2.x使用HDFS平衡器进行数据平衡,而Hadoop 3.x使用Intra-data节点平衡器。
- 文件系统支持:Hadoop 3.x扩展了对更多文件系统的支持,包括Microsoft Azure Data Lake文件系统。
- Datanode资源:在Hadoop 3.x中,Datanode资源可以用于其他应用程序,类似于Hadoop 2.x。
- MapReduce API兼容性:Hadoop 3.x保持了与Hadoop 1.x程序兼容的MR API,以便在Hadoop 3.x上执行。
- 支持操作系统:Hadoop 3.x进一步支持了Microsoft Windows。
- 单点故障(SPOF):Hadoop 3.x具有SPOF的功能,Namenode失败后可以自动恢复,无需人工干预。
- HDFS联盟:Hadoop 3.x支持多个NameNode用于多个Namespace,提高了系统的可扩展性。
- YARN Timeline Service:Hadoop 3.x提供了新版本的YARN Timeline Service,提供了更加灵活和高效的应用程序历史记录和监控功能。
- Hadoop Common包的升级:Hadoop 3.x中升级了Hadoop Common包,包括一些新的功能和改进,以提高系统的性能和可靠性。
- 流式数据处理改进:Hadoop 3.x中对流式数据处理功能进行了改进,包括对Apache Kafka和Apache Storm等流处理框架的更好支持。
- 支持更多的硬件和操作系统平台:Hadoop 3.x扩展了对更多硬件和操作系统平台的支持。
- Shell脚本重构:Hadoop Shell脚本已被重写,以修复许多长期存在的错误并包括一些新功能。
- MapReduce任务本地优化:MapReduce增加了对map输出收集器的本地执行的支持,对于shuffle密集型工作,这可以使性能提高30%或更多。
- 支持多个NameNode:Hadoop 3.x支持两个以上的NameNode,提高了群集的容错能力。
- 默认服务端口变更:Hadoop 3.x中多个服务的默认端口已被更改,减少了与其他应用程序的端口冲突问题。
- DataNode内部负载均衡:Hadoop 3.x在DataNode内部添加了负载均衡功能,以优化数据存储和访问性能。
- 支持文件系统连接器:Hadoop 3.x提供了对多种文件系统的连接器支持,增强了Hadoop与外部存储系统的集成能力。
Hadoop 3.3.x vs Hadoop 3.4.0
- DistCp内存使用优化:Hadoop 3.4.0中添加了-useiterator选项,使用listStatusIterator构建列表,减少客户端构建列表时的内存使用。
- URI缓存:DFS客户端在创建socket地址时可以使用URI缓存,减少URI对象创建的频率。
- 自动密钥库重新加载:增加了自动重新加载密钥库的功能。
- Quota初始化线程增加:NameNode启动过程中的默认Quota初始化线程数量从4增加到12。
- 默认字符集替换为UTF-8:所有默认字符集使用已被替换为UTF-8。
这些是Hadoop不同版本之间的主要区别,每个新版本都在性能、可靠性、兼容性和易用性方面进行了改进和增强。