当前位置: 首页 > article >正文

hadoop权威指南第四版

第一部分 HaDOOP基础知识

1.1 面临的问题
存储越来越大,读写跟不上。
并行读多个磁盘。
问题1 磁盘损坏 – 备份数据HDFS
问题2 读取多个磁盘用于分析,数据容易出错 --MR 编程模型

1.2 衍生品

1 在线访问的组件是hbase 。一种使用hdfs底层存储的模型。支持单行的读写,对数据块读写也是不错的。
2 yarn 资源管理系统。允许其他分布式系统对hadoop集群数据运行。
迭代处理(iterative processing) spark.例如机器学习算法,需要很多迭代。mr不支持。sparK 可基于内存计算。
3 流处理 sTORM SPARKSTEMING
4 SEARCH 搜索 solr (Solr它是一种开放源码的、基于Lucene Java 的搜索服务器) 。

1.3 为什么不能用配有大量硬盘的数据库进行大规模分析?为什么需要Hadoop?

因为计算机硬盘的发展趋势是:寻址时间的提升远远不如传输速率的提升,如果访问包含大量地址的数据,读取就会消耗很多时间,
RDBMS B树是传统的数据库 ,适合更新一小部分数据。
在这里插入图片描述


http://www.kler.cn/news/109225.html

相关文章:

  • 天气数据可视化平台-计算机毕业设计vue
  • Java通过工具类判断前端给定的实体类属性中是否为空
  • 深度学习之基于yolov8的安全帽检测系统
  • H5游戏源码分享-命悬一线
  • 软考-网络安全审计技术原理与应用
  • Fedora Linux 38下Mariadb数据库设置utf8mb4字符编码
  • 【2023年冬季】华为OD统一考试(B卷)题库清单(已收录345题),又快又全的 B 卷题库大整理
  • c 从avi 视频中提取图片
  • linux中好玩的数据流定向和管道命令一
  • 【蓝桥每日一题]-前缀和与差分(保姆级教程 篇3)#涂国旗 #重新排序
  • VBA宏查找替换目录下所有Word文档中指定字符串
  • leetcode-数组
  • 计算机网络基础二
  • MATLAB中mse函数用法
  • ✔ ★【备战实习(面经+项目+算法)】 10.29学习
  • 提高抖音小店用户黏性和商品销量的有效策略
  • Python 批量解压Zip文件
  • RabbitMQ初入门
  • PyCharm中文使用详解
  • <学习笔记>从零开始自学Python-之-常用库篇(十三)内置小型数据库shelve
  • TiDB 7.4 发版:正式兼容 MySQL 8.0
  • 探秘Spring的设计精髓,深入解析架构原理
  • AD9371 官方例程HDL详解之JESD204B RX侧格式配置及各层主要功能
  • 银河麒麟服务器版v4安装程序缺少依赖包,改为利用手机联网在线安装
  • Android 13.0 通过驱动实现禁用usb鼠标和usb键盘功能
  • 【数据结构】插入排序
  • C++标准模板(STL)- 类型支持 (类型特性,is_pointer,is_lvalue_reference,is_rvalue_reference)
  • pytest-yaml 测试平台-3.创建执行任务定时执行用例
  • RabbitMQ学习05
  • 网络滤波器/网络滤波器/脉冲变压器要怎样进行测试,一般要测试哪些参数?