当前位置: 首页 > article >正文

大数据之hadoop(hdfs部分)

1.引入:为什么需要分布式存储?

一个服务器能存入海量数据吗?显然是不能,所以构建分布式解决了存入问题.多台服务器的协调工作也是性能的横向扩展.

   总结:

   1.数据量太大,单机存储能力有上限,需要靠数量来解决问题

     2.数量的提升带来的是网络传输、磁盘读写、CPU、内存等各方面的综合提升。分布式组合在一起可以达到1+1 > 2的效果

2.分布式的调度:

    一.去中心化模式:  没有明确的中心点,协调工作  eg:kafka

    二.中心化模式:    以一个节点为中心,基于中心点工作  eg:hadoop

3.主从模式(master-slaves):(中心化模式):一台master管理多台slaves工作

4.hdfs:(全称:hadoop distributed file system):也就是Hadoop分布式文件系统,是一个Hadoop的中间组件.主要解决海量数据的存储工作

5.hdfs集群架构(既然是中心化模式,那就有个中心点):

    主角色:namenode(管理hdfs整个文件系统,管理database),带着一个secondarynode(辅助)

    从角色(slaves):datanode(负责数据存储)

6.搭建集群:

主要的就:配置软连接

workers文件

hadoop-env.sh文件

core-site.xml文件

hdfs-site.xml文件

创建数据目录,修改文件的所属用户与所属用户组

格式化hadoop

也可以看我的专栏icon-default.png?t=O83Ahttps://blog.csdn.net/m0_72898512/article/details/142883816?spm=1001.2014.3001.55017.启动集群

命令:  start-dfs.sh

主namenode进程有:

从节点进程:

验证:主机名:9870/

8.代表集群机子数量

点进去就可以看到主机的信息了

配置好了记得快照

9.stop-dfs.sh关闭集群

10.然后关机即可

配置完成


http://www.kler.cn/news/356282.html

相关文章:

  • 三菱FX3U-4AD模块怎样读出模拟量数据的?
  • 如何解决目标检测中密集遮挡问题?
  • 基于SSM高校课程评价的设计
  • 80.【C语言】数据结构之时间复杂度
  • React Strict DOM:React Native 通用应用程序的未来
  • 应用指南 | 在IvorySQL中使用pglogical扩展模块
  • 【调教树莓派】如何获取树莓派的硬件ROOT(JTAG裸片调试)
  • docker 指令集
  • 计算机网络基本架构知识点
  • 手机摄影入门
  • 【FFmpeg】Common command
  • 网页前端开发之HTML入门篇:链接标签 a
  • 5 -《本地部署开源大模型》在Ubuntu 22.04系统下ChatGLM3-6B高效微调实战
  • window与ubuntu双系统时间同步
  • 易泊车牌识别:海外车牌快速定制,开启智能识别新时代
  • LSTM反向传播及公式推导
  • 如何查看公众号真实粉丝数,2024年还有哪些粉丝百万以上的大号?
  • 性能评测第一,阿里开源可商用AI模型Ovis 1.6使用指南,AI多模态大模型首选
  • java 第12天 单例 接口
  • Redis入门到精通(二):入门Redis看这一篇就够了