当前位置: 首页 > article >正文

ClickHouse 的 MergeTree 引擎有哪些性能优势?

ClickHouse 的 MergeTree 引擎是其最核心的表引擎之一,具有以下性能优势:

1. 高吞吐量的数据写入:MergeTree 引擎将数据以不可变的片段形式写入磁盘,这些片段会定期通过后台线程合并,优化存储并提高查询性能。

2. 主键索引:MergeTree 支持主键索引,通过 ORDER BY 或 PRIMARY KEY 定义。索引是稀疏的,这意味着不是每行数据都有一个索引条目,而是每隔一定的数据量(由 index_granularity 控制)创建一个索引条目,这样可以在保持索引较小的同时快速定位数据。

3. 数据分区:MergeTree 允许按某个键(如日期)分区数据,使得查询可以只扫描相关的分区,从而加快查询速度。

4. 数据压缩:MergeTree 存储时会对数据进行压缩,减少存储空间的使用,并且压缩算法(如 LZ4)是针对列式存储优化的,可以提高读取速度。

5. 自适应索引粒度:从 ClickHouse 19.11 版本开始,支持自适应索引间隔大小,可以根据写入数据的大小动态调整索引粒度,以优化查询性能。

6. 多版本并发控制(MVCC):MergeTree 支持数据的多版本控制,允许旧数据版本在后台合并过程中存在,而不会影响新数据的写入和查询。

7. 后台合并:MergeTree 会在后台自动合并数据片段,这个过程是增量和优化的,不会对前台查询造成太大影响。

8. 支持数据副本:通过在表引擎名前添加 Replicated 前缀(如 ReplicatedMergeTree),MergeTree 支持数据的多副本,提高数据的可用性和容错性。

9. 支持 ALTER 操作:MergeTree 支持对表结构进行实时修改,如添加或删除列,这对于在线服务来说非常重要。

10. 列式存储:MergeTree 按列存储数据,这样可以在查询时只读取必要的列,减少 I/O 操作。

11. 数据标记和稀疏索引的协同工作:MergeTree 使用数据标记文件(.mrk)和稀疏索引协同工作,快速定位到具体的数据块,提高查询效率。

12. 冷热数据分离:从 ClickHouse 19.15 版本开始,支持多路径存储策略(storage_policy),可以将频繁访问的数据和不常访问的数据分别存储到不同的路径上。

这些特性使得 MergeTree 引擎非常适合处理大规模数据集,尤其是在读多写少的场景下,能够提供极高的查询性能。
 


http://www.kler.cn/a/331282.html

相关文章:

  • 梳理你的思路(从OOP到架构设计)_简介设计模式
  • 【工具】通过js获取chrome浏览器扩展程序列表id及名称等
  • 我的个人博客正式上线了!
  • 常见的哈希函数构造方法
  • 基于蓝牙通信的手机遥控智能灯(论文+源码)
  • Hive解决数据倾斜
  • Mybatis 学习之 分页实现
  • 在Ubuntu 20.04中安装CARLA
  • VMware ESXi 8.0U3b macOS Unlocker OEM BIOS 2.7 Dell HPE 定制版 9 月更新发布
  • 物流行业中的AI平台架构与智能化应用
  • 【计算机基础理论】图灵机(Turing Machine)
  • 以企业的视角进行大学生招聘
  • IT新秀系列:Go语言的兴起
  • 什么是 JWT?它是如何工作的?
  • jmeter学习(1)线程组与发送请求
  • 15分钟学 Python 第34天 :小项目-个人博客网站
  • 【H2O2|全栈】关于CSS(9)CSS3扩充了哪些新鲜的东西?(二)
  • 一个基本的包括爬虫、数据存储和前端展示框架0
  • 【Android 14源码分析】WMS-窗口显示-第二步:relayoutWindow -1
  • MISC - 第11天(练习)
  • unity3D雨雪等粒子特效不穿透房屋效果实现(粒子不穿透模型)
  • 在一个克隆的仓库中设置远程仓库并同步最新的更改
  • SpringBoot实现的师生健康信息管理平台
  • [Docker学习笔记]Docker的原理Docker常见命令
  • flink:java集成flink实现流数据处理(一)
  • Linux——环境变量