当前位置: 首页 > article >正文

ClickHouse列式存储基础笔记

一、基础概念

ClickHouse是俄罗斯Yandex在2016年开源,使用C++编写的列式存储数据库,近几年在OLAP领域大范围应用。国内:阿里、字节、腾讯 、虎牙、青云、新浪等在使用;国外:优步、Ebay、Spotify、思科等在使用.

  • 官网:Fast Open-Source OLAP DBMS - ClickHouse
  • GitHub: https://github.com/ClickHouse/ClickHouse

二、特点和应用场景

  • 不依赖Hadoop 生态、安装和维护简单
  • 擅长对列的聚合、计数等统计操作性能强劲
  • 对列存储和压缩的采用更好的算法,更好节省成本
  • 拓展性强,在生产中经过实战测试,从单服务器部署到具有数千个节点的集群的线性水平可扩展性
  • 具有企业级安全功能和故障安全机制,可防止数据因应用程序错误和人为错误而损坏
  • 支持主流的大部分SQL语法和函数
  • 吞吐能力强,官方测试支持,支持多种存储引擎,满足多数业务场景
  • 广泛应用:互联网电商、在线教育、金融等领域用,户行为数据记录和分析,搭建数据可视化平台

三、海量数据OLTP/OLAP系统

OLTP:OnLine Transaction Processing,联机事务处理系统, 就是对数据的增删改查等操作

主要存储的是业务数据,如下单、支付、注册,典型代表有Mysql、 Oracle等数据库。这类操作事务进行操作,对响应时间要求高,数据是GB级别。-业务人员

OLAP:OnLine Analytical Processing,联机分析处理系统。存储的是历史数据,如风控平台、BI平台、数据可视化系统等,支持复杂的分析操作,侧重决策,典型代表有 Hive、ClickHouse,基础数据来源于生产系统中的操作日志数据,数据是TB级别。-分析决策人员

四、行存储与列存储的区别

行存储

  • 传统的OLTP关系型数据库 都是行存储

  • 一行中的数据在存储介质中以连续存储形式存在

  • 适合随机的增删改查操作 或者 在行中选取所有属性的查询操作,结合索引提升性能

缺点:

  • 查询的全部记录的某几个字段,但由于这些字段在各行数据单元中,而整个行特别大(字段特别多),程序必须不断读取每一条的行记录取对应的字段,使得读取效率大大降低

列式存储 

  • 存储结构化数据时,在底层的存储介质上,数据是以列的方式来组织的。
  • 存储完若干条记录的首个字段后,再存储这些记录的第二个字段,然后再第三个字段、第四个字段...以此类推。
  • 查询时只有涉及到的列会被读取,而不需要全表扫描,可以显著减少IO消耗,并降低查询响应时间。

小结

  • 列存储在聚合、统计等操作性能会优于行存储。
  • 列存储将多行记录的列连续存储在一起,一列接着一列。
  • 列式存储是同个数据类型,会进行数据压缩率更高,更省空间。
  • 列存储数据更新成本较高,一般适合读多写少的场景,适合 OLAP 分析型系统

未完待续...


http://www.kler.cn/a/274512.html

相关文章:

  • List深拷贝后,数据还是被串改
  • 【原生js案例】让你的移动页面实现自定义的上拉加载和下拉刷新
  • 项目搭建+删除(单/批)
  • 智能工厂的设计软件 三种处理单元(NPU/GPU/CPU)及其在深度学习框架中的作用 之4(百度文库答问 之2)
  • fastAPI接口的请求与响应——基础
  • 使用React构建一个掷骰子的小游戏
  • BUUCTF-Misc10
  • 搭建基于 Snowflake 的 CI/CD 最佳实践!
  • 【Linux】进程排队的理解进程状态的表述僵尸进程和孤儿进程的理解
  • 六种GPU虚拟化:除了直通、全虚拟化 (vGPU)还有谁?
  • Spark 3.5.0 特性速览
  • 安装tensorflow2.4
  • 【Greenhills】MULTI IDE-GHS最新版本Compiler 23.5.4的兼容性问题
  • 英伟达GTC2024大会开幕,发布机器人003计划,引领具身智能新时代
  • JAVA基础—多线程基础
  • 统计咨询|久菜盒子工作室可实现需求
  • 耳机壳UV树脂制作私模定制耳塞需要什么样的设备和技术?
  • HCIA——30奈奎斯特定理、香农定理
  • springboot日志配置文件log4j2.xml
  • Laravel框架项目首页内容修改
  • 如何从零开始拆解uni-app开发的vue项目(一)
  • 数据库只追求性能是不够的!
  • 3D模型优化服务+三维可视化+数字孪生+元宇宙=眸瑞科技
  • 使用甘特图实现高效时间规划
  • 微软AI系列 C#中实现相似度计算涉及到加载图像、使用预训练的模型提取特征以及计算相似度
  • GPT-4与Claude3、Gemini、Sora:AI领域的技术创新与突破