当前位置: 首页 > article >正文

Clickhouse Join

ClickHouse中的Hash Join, Parallel Hash Join, Grace Hash Join
https://www.cnblogs.com/abclife/p/17579883.html
https://clickhouse.com/blog/clickhouse-fully-supports-joins-full-sort-partial-merge-part3

总结
本文描述并比较了ClickHouse中基于内存哈希表的3种连接算法。

哈希连接算法速度快,是最通用的算法,支持所有连接类型和严格性设置,但内存哈希表的创建是单线程的,如果右侧表非常大,就会成为瓶颈。

并行哈希连接算法通过同时创建多个哈希表,在右侧表很大的情况下速度更快,但需要更多内存。

Grace哈希连接算法是一种非内存限制版本,它将输入数据分割成多个数据桶,其中一些数据桶先存到到磁盘,然后在内存中按顺序处理。

下图总结了本文章中所有连接查询运行的内存消耗和执行时间(max_threads设置为30,右侧表为大表):

在这里插入图片描述

Grace哈希连接算在牺牲更多执行时间的前提下,内存消耗量可以通过增加数据桶数量以线性方式减少。

请注意,正如前面提到的和下面演示的那样,ClickHouse总是将grace_hash_join_itial_buckets的设置值向上舍入到最接近的2的幂次。因此,将grace_hash_join_itial_buckets设置为3时运行的查询实际上使用了4个初始桶。

选择正确的联接算法(ClickHouse 中对 Join 类型的支持 - Part 5)
https://blog.csdn.net/ClickHouseDB/article/details/132299482
https://clickhouse.com/blog/clickhouse-fully-supports-joins-part1

ClickHouse 联接算法概述
迄今为止,ClickHouse 已开发出以下 6 种联接算法:

Direct join

Hash join

Parallel hash join

Grace hash join

Full sorting merge join

Partial merge join
在这里插入图片描述

在这里插入图片描述


http://www.kler.cn/a/156698.html

相关文章:

  • 【力扣热题100】[Java版] 刷题笔记-169. 多数元素
  • ARM架构中断与异常向量表机制解析
  • 如何判定linux系统CPU的核心架构
  • C++初阶:类和对象(上)
  • 力扣515:在每个树行中找最大值
  • 结构体(c语言)
  • 外包干了4年,技术退步太明显了。。。。。
  • Mac IDEA解决Maven项目命令行报错:command not found: mvn
  • [C国演义] 第二十三章
  • SpringBoot + Spring Cloud Alibaba + Nacos实现服务管理
  • Qt 网络通信
  • 【JavaEE】单例模式
  • 使用ESP8266驱动TFT显示屏
  • html/css中用float实现的盒子案例
  • virtualbox上win7企业微信CPU高问题
  • 企业微信协议开发,API接口调用
  • 大数据基础设施搭建 - 数据装载
  • C++ 系列 第五篇 C++ 算术运算符及类型转换
  • ClickHouse入门手册1.0
  • GO基础之变量与常量
  • 专业课:递归非递归中序遍历
  • LeetCode [中等] 二叉树中序—二叉搜索树中第K小的元素
  • 【wvp】测试记录
  • 百度收录批量查询工具,免费SEO优化排名工具
  • 【有ISSN、ISBN号!往届均已完成EI检索】第三届电子信息工程、大数据与计算机技术国际学术会议(EIBDCT 2024)
  • Java BIO、NIO、AIO 有什么区别?