当前位置: 首页 > article >正文

clickhouse优化记录

一、注重使用分区键来加快查询

在大数据量的情况下,如果查询语句中,可以使用分区键来进行查询,可以极大缩小数据的查询范围,加快查询速度。

二、使用order by的列,适用最左前缀匹配原则

比如表的结构是 order by(id, name, age)时,当order by id desc limit 100的情况下,可以使用到此索引,加快查询

三、当查询语句为order by limit时,让尽量少的列参与 order by limit

当id为唯一键时

比如语句

select * from table order by id desc limit 100

可以优化为

select * from table where id in (select id from table order by id desc limit 100)

当表存在多列,且其他列有长度明显较大的列时,速度提升更为明显。

四、使用投影优化查询速度

投影可以极大加快语句的查询速度,当sql语句查询比较频繁时,可以加上投影。注意投影不能设置查询条件。

select
    age,
    count(*) as cnt
group by
    age

可以设置为投影,但是不能加上where age > 10这种条件。物化视图可以加条件。

五、查询group by order limit时,如果group by的key distinct值比较多,且key的长度较长,可能总是会内存溢出,此时考虑从产品层面,解决这个问题。

六、参数调整

user.xml里,有三个比较重要的参数

max_memory_usage:最大内存使用

max_bytes_before_external_sort: 当排序所需内存超过此值时,clickhouse会尝试将中间结果写入磁盘

max_bytes_before_external_group_by:当group by所需内存超过此值时,clickhouse会尝试将中间结果写入磁盘


http://www.kler.cn/a/446961.html

相关文章:

  • 3D视觉[一]3D计算机视觉
  • 常用Python自动化测试框架有哪些?
  • CUDA编程 | 6.2 并发内核执行
  • iOS + watchOS Tourism App(含源码可简单复现)
  • springboot453工资信息管理系统(论文+源码)_kaic
  • Vue3 的 Teleport 是什么?在什么场景下会用到?
  • 华为DHCP高级配置学习笔记
  • 数据结构_赫夫曼树(基于例题)
  • 【杂谈】虚拟机与EasyConnect运行巧设:Reqable助力指定应用流量专属化
  • 软件需求分析常见误区(三),瀑布模型中需求分析遇到的问题
  • ScottPlot学习的常用笔记-02
  • 《SIFT 算法及原理详解》
  • Verilog中initial的用法
  • 使用C语言编写UDP循环接收并打印消息的程序
  • 云手机:超越常规认知的多功能利器
  • Vue3之路由(Router)介绍
  • [论文阅读]Universal and transferable adversarial attacks on aligned language models
  • MapReduce的shuffle过程详解
  • 【论文阅读】Deep Neural Network Pruning Using Persistent Homology
  • iClient3D for Cesium 实现限高分析
  • 【AI学习】Huggingface复刻Test-time Compute Scaling技术
  • uniapp使用腾讯地图接口的时候提示此key每秒请求量已达到上限或者提示此key每日调用量已达到上限问题解决
  • SSD目标检测算法
  • 每天40分玩转Django:Django测试
  • 人形机器人之间的协同合作运输方案[罗马大学-Giuseppe Oriolo]
  • 单元测试使用记录