面试:Hadoop,块,HDFS的优缺点,HDFS的读写流程
Hadoop
CDH会简化Hadoop的安装
Hue主要用于数据分析和处理,而CM(Cloudera Manager)则主要用于集群的管理和运维。
HDFS
HDFS的块
块是
HDFS
系统当中的最小存储单位, 在hadoop2.0和3.0中默认128MB
在HDFS上的文件会被拆分成多个块,每个块作为独立的单元进行存储。多个块存放在不同的DataNode上,整个过程中 HDFS系统会保证一个块存储在一 个数据节点上 。如果某文件大小或者文件的最后一个块没有到达128M,则不会占据整个块空间 。
块的大小是固定的, 可以根据实际需求自定义,但不建议修改
改小: 增加寻址时间; 浪费元数据内存
改大: 增加传输时间
HDFS的读写流程
读流程
写流程