当前位置：首页 > article >正文

ClickHouse 的 MergeTree 引擎有哪些性能优势？

article 2025/3/1 10:41:26

1. 高吞吐量的数据写入：MergeTree 引擎将数据以不可变的片段形式写入磁盘，这些片段会定期通过后台线程合并，优化存储并提高查询性能。

2. 主键索引：MergeTree 支持主键索引，通过 ORDER BY 或 PRIMARY KEY 定义。索引是稀疏的，这意味着不是每行数据都有一个索引条目，而是每隔一定的数据量（由 index_granularity 控制）创建一个索引条目，这样可以在保持索引较小的同时快速定位数据。

3. 数据分区：MergeTree 允许按某个键（如日期）分区数据，使得查询可以只扫描相关的分区，从而加快查询速度。

4. 数据压缩：MergeTree 存储时会对数据进行压缩，减少存储空间的使用，并且压缩算法（如 LZ4）是针对列式存储优化的，可以提高读取速度。

5. 自适应索引粒度：从 ClickHouse 19.11 版本开始，支持自适应索引间隔大小，可以根据写入数据的大小动态调整索引粒度，以优化查询性能。

6. 多版本并发控制（MVCC）：MergeTree 支持数据的多版本控制，允许旧数据版本在后台合并过程中存在，而不会影响新数据的写入和查询。

7. 后台合并：MergeTree 会在后台自动合并数据片段，这个过程是增量和优化的，不会对前台查询造成太大影响。

8. 支持数据副本：通过在表引擎名前添加 Replicated 前缀（如 ReplicatedMergeTree），MergeTree 支持数据的多副本，提高数据的可用性和容错性。

9. 支持 ALTER 操作：MergeTree 支持对表结构进行实时修改，如添加或删除列，这对于在线服务来说非常重要。

10. 列式存储：MergeTree 按列存储数据，这样可以在查询时只读取必要的列，减少 I/O 操作。

11. 数据标记和稀疏索引的协同工作：MergeTree 使用数据标记文件（.mrk）和稀疏索引协同工作，快速定位到具体的数据块，提高查询效率。

12. 冷热数据分离：从 ClickHouse 19.15 版本开始，支持多路径存储策略（storage_policy），可以将频繁访问的数据和不常访问的数据分别存储到不同的路径上。

这些特性使得 MergeTree 引擎非常适合处理大规模数据集，尤其是在读多写少的场景下，能够提供极高的查询性能。

Mybatis 学习之分页实现

在Ubuntu 20.04中安装CARLA

以企业的视角进行大学生招聘

IT新秀系列：Go语言的兴起

什么是 JWT？它是如何工作的？

jmeter学习（1）线程组与发送请求

MISC - 第11天(练习)

Linux——环境变量