大数据复习知识点1
1、HDFS和MapReduce的起源:HDFS起源于Google的GFS论文,它是为了解决大规模数据集的存储问题而设计的。而MapReduce则是Google为了解决大规模数据处理问题而提出的一种并行计算模型。
2、YARN的作用:YARN是Hadoop的资源管理器,它负责管理和调度集群中的计算资源,使得Hadoop能够支持各种计算模型和应用程序。
3、Hive的作用:Hive是一个基于Hadoop的数据仓库工具,它可以将结构化的数据文件映射为数据库表,并提供SQL查询功能,使得大规模数据的查询和分析变得更加简单。
4、Spark的特点:Spark拥有先进的架构,高效的数据处理能力和易用的API,还支持多种机器学习和图计算库,非常适合大规模数据处理和机器学习任务。
5、虚拟机的网络连接方式:虚拟机有三种网络连接方式:桥接模式、NAT模式和仅主机模式。桥接模式让虚拟机和主机处在同一局域网下;NAT模式让虚拟机可以访问外网,但其他主机不能访问虚拟机;仅主机模式则让虚拟机只能访问主机,不能访问外网。
6、查看主机名的命令:可以使用hostname命令来查看主机名。