当前位置：首页 > article >正文

读数据工程之道：设计和构建健壮的数据系统19数据存储系统 (下）

article 2024/10/25 7:31:52

1. 对象存储

1.1. 对象存储包含各种形状和大小的对象

1.1.1. Amazon S3、Azure Blob Storage和Google Cloud Storage(GCS)是广泛使用的对象存储
1.1.2. 许多云数据仓库（以及越来越多的数据库）利用对象存储作为其存储层，而云数据湖通常位于对象存储上
1.1.3. 对象存储是一个用于不可改变的数据对象的键值存储
- 1.1.3.1. 对象不支持随机写入或追加操作
- 1.1.3.2. 它们作为字节流被写入一次
  
  1.1.3.2.1. 在这个初始写入之后，对象就变得不可改变了
  
  1.1.3.2.2. 要改变一个对象中的数据或向其追加数据，我们必须重写整个对象
1.1.4. 对象存储通常支持通过范围请求进行随机读取，但这些查找的性能可能比从存储在SSD上的数据中随机读取要差得多
1.1.5. 对象存储不需要支持锁或更改同步，允许跨大规模磁盘集群存储数据
- 1.1.5.1. 对象存储支持在许多磁盘上进行性能极高的并行流写入和读取，这种并行性对工程师来说是隐藏的，他们可以简单地处理流，而不是与单个磁盘进行通信

1.2. 云对象存储

1.2.1. 云对象存储最吸引人的特点之一是它可以直接管理和使用
- 1.2.1.1. 对象存储可以说是第一批“无服务器”服务之一，工程师不需要考虑底层服务器集群或磁盘的特性
1.2.2. 典型的云对象存储将数据保存在几个可用区，极大地降低了存储完全离线或以不可恢复的方式丢失的概率
- 1.2.2.1. 耐用性和可用性是内置于成本中的
- 1.2.2.2. 云存储供应商以折扣价格提供其他存储类别，以换取降低的耐用性或可用性
1.2.3. 云对象存储是分离计算和存储的一个关键因素，允许工程师用短暂的集群处理数据，并按需扩大和减少这些集群
- 1.2.3.1. 大多数组织将把数据处理转移到云中，使用对象存储作为基本的存储和服务层，同时在短暂的集群上处理数据

1.3. 在对象存储中，可用的存储空间也是高度可扩展的，这是大数据系统的理想特征

1.4. 数据工程应用程序的对象存储

1.4.1. 从数据工程的角度来看，对象存储为大批量读取和批量写入提供了出色的性能
1.4.2. 对象存储不适合每秒有许多小更新的事务工作负载，这些用例最好由事务数据库或块存储系统来完成
1.4.3. 对象存储对于低更新率的操作来说效果很好，每个操作都会更新大量的数据
1.4.4. 对象存储现在是数据湖存储的黄金标准
- 1.4.4.1. 在数据湖的早期，一次写入，多次读取(Write Once，Read Many，WORM)是操作标准，但这不是HDFS和对象存储的局限，而与管理数据版本和文件的复杂性有很大关系
1.4.5. 对象存储是这些结构化数据应用之外的任何格式的非结构化数据的理想存储库
1.4.6. 对象存储可以存放任何二进制数据，不受类型或结构的限制，并且经常在原始文本、图像、视频和音频的ML管道中发挥作用

1.5. 对象寻找

1.6. 对象的一致性和版本管理

1.7. 存储类别和层级

1.7.1. 云供应商现在提供不同的存储等级，以降低访问量或降低耐用性为交换条件，对数据存储定价进行折扣
1.7.2. 许多存储层仍然使数据高度可用，但以高的检索成本换取少的存储成本
1.7.3. 在减少访问的层级中，更进一步的是S3 Glacier的归档层级
- 1.7.3.1. 数据恢复需要12小时
- 1.7.3.2. 这种存储类别是为那些将被存储7～10年，每年只被访问1～2次的数据而设计的

1.8. 对象存储支持的文件系统