当前位置: 首页 > article >正文

Hadoop简介及单点伪分布式安装

目录

  • 1. 大数据
  • 2. Hadoop简介
  • 3. Hadoop伪分布式安装
  • 4. Hadoop启动
  • 参考

1. 大数据

  大数据的定义:一种规模大到在获取、存储、管理、分析方面大大超出传统数据库软件工具能力范围的数据集合。
  特征:
  1.海量的数据规模
  2.快速的数据流转
  3.多样的数据类型
  4.价值密度低
  上述特征可以缩小成5个特点:大量、高速、多样、价值、真实性。

2. Hadoop简介

  Hadoop是一个由Apache软件基金会开发的分布式系统基础架构,它实现了一个分布式文件系统HDFS。HDFS具有高容错性,可以部署在价格低廉的硬件上,能提供高吞吐量来访问应用程序的数据。Hadoop的另一个核心设计就是MapReduce,MapReduce为海量的数据提供了计算。

3. Hadoop伪分布式安装

  我推荐看Hadoop官网的单点伪分布式安装,一定要完成Pseudo-Distributed Operation中的配置。
  这里我推荐使用Docker,我已经制作好了一个单点伪分布式的Hadoop镜像。拉取该镜像的命令:docker pull mengsui/single_node_hadoop:4.0
  使用该镜像运行容器的命令:docker run -d --gpus all -p 8080:8080 -p 8088:8088 -p 9870:9870 mengsui/single_node_hadoop:4.0(我在其中配置了nvidia-container-toolkit,可以使用宿主机的GPU)。
  9870是WebHDFS的端口,8088是 YARN ResourceManager Web UI的端口,8080是code-server(vscode网页版的端口)。

4. Hadoop启动

  启动命令:start-dfs.sh start-yarn.sh
  关闭命令:stop-dfs.sh stop-yarn.sh
  检查启动是否成功:jps。启动成功,在jps命令下会显示ResourceManager、DataNode、SecondaryNameNode、NameNode、NodeManager。
在这里插入图片描述
  启动完后,直接点击8088和9870端口的连接,即可进入如下界面。
在这里插入图片描述
在这里插入图片描述

参考

吴章勇 杨强著 大数据Hadoop3.X分布式处理实战


http://www.kler.cn/a/380479.html

相关文章:

  • Unity复刻胡闹厨房复盘 模块一 新输入系统订阅链与重绑定
  • 【幼儿园识物】比大小启蒙资料PDF
  • Rust 在前端基建中的使用
  • nmap扫描优化
  • 基于Springboot + vue实现的汽车资讯网站
  • <论文>初代GPT长什么样?
  • 使python输出带上颜色
  • 数据结构与算法教学视频+pdf+刷题手册(python+c+java+javascript)个人分享~
  • FlinkCDC-MYSQL批量写入
  • OceanBase V4.3.3,首个面向实时分析场景的GA版本发布
  • 【漏洞复现】某最新版快递微信小程序系统存在前台任意文件读取漏洞
  • HTML 标签属性——<a>、<img>、<form>、<input>、<table> 标签属性详解
  • 基于Python爬虫与文本挖掘的网络舆情监控系统【附源码】
  • JAVA题目笔记(十二) 拼图游戏
  • 【Linux】深入理解进程控制:从创建到终止和进程等待
  • 如何安装 Vue.js:适合不同场景的方案
  • c++基础12比较/逻辑运算符
  • 11月1日笔记(UAC绕过)
  • Golang | Leetcode Golang题解之第535题TinyURL的加密与解密
  • PHP单商户多门店会员管理系统小程序源码
  • react jsx基本语法,脚手架,父子传参,refs等详解
  • 【系统架构设计师】2023年真题论文: 论软件可靠性评价的设计与实现(包括和素材和论文)
  • 大厂面试真题-说说redis的分片方式
  • 深入研究 RAG 流程中的关键组件
  • Kubernetes架构及核心组件
  • Soul App创始人张璐团队自研多模态大模型,亮相GITEX GLOBAL获好评