【大数据】-- 读放大和写放大
目录
一、定义
1. 读放大(Read Amplification)
定义
原因
优化方法
2. 写放大(Write Amplification)
定义
原因
优化方法
对比与联系
二、举例
1. Hadoop(HDFS)
读放大
写放大
2. Flink
读放大
写放大
3. Hive
读放大
写放大
4. Presto
读放大
写放大
5. StarRocks
读放大
写放大
6. ClickHouse
读放大
写放大
总结
一、定义
在大数据领域,读放大和写放大是描述存储系统性能的重要概念,主要用于评估数据存储和处理系统在读写操作中的效率问题。以下是两者的具体介绍:
1. 读放大(Read Amplification)
定义
读放大是指为了满足一个用户的读取请求,存储系统需要读取的数据量比请求的数据量更多的现象。
原因
- 数据分片:大数据系统(如 HBase、Cassandra)将数据分散存储在多个节点上,读取时可能需要访问多个节点来聚合结果。
- 索引开销:为了找到特定的数据,系统可能需要先扫描索引数据或元数据。