当前位置: 首页 > article >正文

1.0 Hadoop 教程

Hadoop 是一个开源的分布式计算和存储框架,由 Apache 基金会开发和维护。

Hadoop 为庞大的计算机集群提供可靠的、可伸缩的应用层计算和存储支持,它允许使用简单的编程模型跨计算机群集分布式处理大型数据集,并且支持在单台计算机到几千台计算机之间进行扩展。

Hadoop 使用 Java 开发,所以可以在多种不同硬件平台的计算机上部署和使用。其核心部件包括分布式文件系统 (Hadoop DFS,HDFS) 和 MapReduce。

Hadoop 历史

2003 年和 2004 年,Google 公司先后发表了两篇著名的论文 GFS 和 MapReduce。

这两篇论文和 2006 年发表的 BigTable 成为了现在著名的"Google 三大论文"。

Doug Cutting 在受到了这些理论的影响后开始了 Hadoop 的开发。

Hadoop 包含了两大核心组件。在 Google 的论文中,GFS 是一个在庞大的计算机集群中运行的分布式文件系统,在 Hadoop 中 HDFS 实现了它的功能。MapReduce 是一个分布式计算的方式,Hadoop 用同名称的 MapReduce 框架实现了它的功能。我们会在之后的 MapReduce 章节中详细介绍它。 从 2008 年开始,Hadoop 作为 Apache 顶级项目存在。它与它的众多子项目广泛应用于包括 Yahoo、阿里巴巴、腾讯等大型网络服务企业,并被 IBM、Intel、Microsoft 等平台公司列为支持对象。

Hadoop 的作用

Hadoop 的作用非常简单,就是在多计算机集群环境中营造一个统一而稳定的存储和计算环境,并能为其他分布式应用服务提供平台支持。

也就是说, Hadoop 在某种程度上将多台计算机组织成了一台计算机(做同一件事),那么 HDFS 就相当于这台计算机的硬盘,而 MapReduce 就是这台计算机的 CPU 控制器。

接下来我们将会讲解2.0 Hadoop 运行环境,希望你也能学会了;

希望你也学会了,更多编程源码模板请来二当家的素材网:https://www.erdangjiade.com


http://www.kler.cn/a/228160.html

相关文章:

  • JS面相对象小案例:自定义安全数组
  • 「 机器人 」系统辨识实验浅谈
  • js/ts数值计算精度丢失问题及解决方案
  • 【2024年终总结】深圳工作生活评测
  • 基于Docker的Spark分布式集群
  • 保健食品注册数据库<一键查询保健食品信息>
  • 深度学习在智能交互中的应用:人与机器的和谐共生
  • 【下一代分布式追踪】将Trace扩展到网络设备
  • web 技术栈有哪些?
  • SQL Server之DML触发器
  • docker 构建个人博客网站
  • 《Python 网络爬虫简易速速上手小册》第3章:Python 网络爬虫的设计(2024 最新版)
  • Qos--优先级映射关系
  • HTML5和CSS3强化知识总结
  • EF Core 的基本使用及常见的坑
  • go-基于逃逸分析来提升性能程序
  • 基于hadoop+spark的大规模日志的一种处理方案
  • 数据安全加密系统的核心目的是什么
  • 从0开始搭建、上传npm包
  • 美敦力呼吸机PB560硬件分析
  • 后端程序员入门react笔记——react的生命周期(二)
  • Qt程序设计-自定义QLineEdit控件添加鼠标单击事件
  • JS第二天、原型、原型链、正则
  • iPhone搞机记录
  • 视频美颜SDK开发指南:从入门到精通的技术实践
  • 机器学习系列——(六)数据降维