大数据Hadoop入门1
目录
相关资料
第一部分
1.课程内容大纲和学习目标
2.数据分析和企业数据分析方向
3.数据分析基本流程步骤
4.大数据时代
5.分布式和集群
6.Linux操作系统概述
7.VMware虚拟机概念与安装
8.centos操作系统的虚拟机导入
9.VMware虚拟机常规使用、快照
第二部分
1.课程内容大纲-学习目标
2.Apache Hadoop介绍、发展简介、现状
3.Apache Hadoop特性优点、国内外应用
4.Apache Hadoop发行版本、架构变迁
5.Apache Hadoop安装部署--集群组成介绍
6.Apache Hadoop安装部署--服务器基础环境设置
7.Apache Hadoop安装部署--安装包结构
8.Apache Hadoop安装部署--修改配置文件、同步安装包和环境变量
9.Apache Hadoop安装部署--format初始化操作
10.Apache Hadoop安装部署--集群启停命令、web UI页面
11.Apache Hadoop安装部署--初体验
12.传统文件系统在大数据时代面临的挑战
13.场景互动:分布式存储系统的核心属性及功能作用
14.HDFS简介、设计目标和应用场景
15.HDFS重要特性解读
16.HDFS shell命令行解释说明
17.HDFS shell命令行常用操作
18.HDFS工作流程与机制--各角色职责介绍与梳理
19.HDFS工作流程与机制--写数据流畅--pipeline、ack、副本策略
20.HDFS工作流程与机制--写数据流畅--梳理
相关资料
- 教程资源: https://pan.baidu.com/s/1WYgyI3KgbzKzFD639lA-_g 提取码: 6666
- 本套视频笔记:https://upward.blog.csdn.net/article/details/129232552
第一部分
1.课程内容大纲和学习目标
2.数据分析和企业数据分析方向
3.数据分析基本流程步骤
4.大数据时代
5.分布式和集群
6.Linux操作系统概述
7.VMware虚拟机概念与安装
8.centos操作系统的虚拟机导入
课程配置了三台虚拟和大数据相关软件
安装虚拟机的时候会随机生成一个网段
但课程资料提供的都是88网段
第二步修改Windows本地的网卡
后面需要通过Windows笔记本去访问各个虚拟机
如果网站不在一个网段,则无法访问
这样我们的虚拟机和本地都处于88网段
双击后就会自动被我们的虚拟机打开
ifconfig
ping
9.VMware虚拟机常规使用、快照
本课程使用的node1是4G,node2和3都是2G
挂起就是关机再开机的时候,会恢复到我们挂起的状态
本课程提供了三种快照,如果不想安装,可直接点击使用
第二部分
1.课程内容大纲-学习目标
2.Apache Hadoop介绍、发展简介、现状
3.Apache Hadoop特性优点、国内外应用
4.Apache Hadoop发行版本、架构变迁
5.Apache Hadoop安装部署--集群组成介绍
灰色大框是一个个计算机,彩色小框是一个个进程
6.Apache Hadoop安装部署--服务器基础环境设置
快照1就包含基础环境
快照1已经使用vim编辑好了,下面用cat命令查看一下
用cat查看主机名
但一个个查看很麻烦
在任一机器下点击底栏
这里就可以给所有机器发送这个命令
正常情况下一台机器访问另外一台机器是需要密码的
后面涉及到一些的集群启动,我们可以直接免密操作
这里已经配置好了,下面做一个验证
ssh到我们的node1上,没有问题,然后退出
ssh到我们的node2上,没有问题,然后退出
ssh到我们的node3上,没有问题,然后退出
下面这个是阿里云的授时同步
这个命令要保持网络的通畅
这里我们也已经设置好
hadoop是Java写的,Java需要jdk提供相关的支撑
将jdk拖拽到server下
安装好以后就可以删除这个安装包
下面去配置环境变量
我们在配置文件的最后加上下面三行
这里主要配置Java home ,Java安装包的路径等信息
保存好后就重新加载一下环境变量
验证Java是否安装成功
上面只是在node1机器上安装成功
下面是scp远程拷贝到其它机器
我们的环境变量同样需要拷贝
之后对三台机器同时做一个source命令
7.Apache Hadoop安装部署--安装包结构
我们在第一天机器上进行配置然后拷贝到其它机器上
将hadoop安装包拷贝到server下
解压
删除安装包
下面cd进去看一下hadoop安装包的内容
8.Apache Hadoop安装部署--修改配置文件、同步安装包和环境变量
这里的配置主要说明Java的地址和各个进程运行的一个用户名
我们先到hadoop目录下
在文件的最后复制粘贴一下
我们将上面的core-site.xml放到configuration之间
上面的两个对内存限制在企业中可以去掉
删除原先的localhost
上面只完成了一台机器的配置
下面我们在三台机器输入hadoop
看能否正确识别
三台机器都显示了hadoop命令,成功
9.Apache Hadoop安装部署--format初始化操作
出现下面这个就是
成功了
10.Apache Hadoop安装部署--集群启停命令、web UI页面
下面继续打开第二和三台机器
上面我们HDFS集群就启动成功了
下面继续启动YARN集群
点击这里就会来到HDFS文件系统
11.Apache Hadoop安装部署--初体验
这个命令跟Linux命令比较相似
可以发现HDFS文件系统和Linux文件系统蛮像的
我们可以上传一个文件
我们再生成一个小文件,然后上传
除了使用命令
也可以在web页面进行操作
下面计算圆周率
下面这个就是计算结果
我们新建一个目录,然后将文件传过去
下面使用MapReduce去统计单词个数
12.传统文件系统在大数据时代面临的挑战
13.场景互动:分布式存储系统的核心属性及功能作用
14.HDFS简介、设计目标和应用场景
15.HDFS重要特性解读
这个 rack 代表机架。机柜在机房中,是一排排的机架机柜。机架 1 上有三个 DataNode,机架 2 上有两个,整体架构为一个主角色带领五个从角色的主从架构。数据底层是分块存储的,块为 Block,第三个块与块之间有副本备份(Replication),属于冗余存储。NameNode 记录元数据(matadata),如名字、备份副本数等。底层的 DataNode 专门存储数据块。
这里的size是文件本身大小,block_size就是数据块的大小
16.HDFS shell命令行解释说明
上面就是查看本地文件系统
其中文件并不在hdfs文件系统在
可以发现本地系统的根目录下就是我们的文件
==================================================================================================================================================
下面我们查看的就是HDFS系统的根目录
==================================================================================================================================================
如果我们什么都不加,默认就是HDFS的根目录
这个默认访问
取决fs_defaultFS参数
我们之前就配置好了
17.HDFS shell命令行常用操作
这里我们上传一个文件
人性化体现在红框中
本地就是执行命令的那台机器
如果在node1机器执行put,本地机器就是node1
如果在node2机器执行put,本地机器就是node2
但很多时候我们都是第一种写法
其它的查看命令比如tail
下面是简化写法
新创建三个文件
将其上传到hadoop
下面就是追加合并
将我们的文件内容追加到已经存在文件末尾
我们在企业中的小文件合并会用到上面的命令
18.HDFS工作流程与机制--各角色职责介绍与梳理
namenode放在内存中,因为内存交互速度快,但断电就消失了
所以使用磁盘进行持久化存储
19.HDFS工作流程与机制--写数据流畅--pipeline、ack、副本策略
上面就是我们的线性传输,管道式方法传输
下面的红线就是拓扑式传输