当前位置: 首页 > article >正文

clickhouse数据结构和常用数据操作

背景, 大数据中查询用mysql时间太长, 使用clickhouse 速度快, 数据写入mysql后同步到clickhouse中

测试1千万数据模糊搜索  mysql 需要30-40秒  clickhouse 约   100ms  

一 数据结构和存储引擎

1 查看clickhouse所有数据类型

select * from system.data_type_families;

2 常用数据类型及同mysql对比

MySQL

Clickhouse

大小(字节)

数据范围

tinyint

Int8

1

[-128 : 127]

smallint

Int16

2

[-32768 : 32767]

int

Int32

3

[-2147483648 : 2147483647]

bigint

Int64

4

[-9223372036854775808 : 9223372036854775807]

Int unsigned

UInt32

3

[0 : 4294967295]

MySQL

Clickhouse

大小(字节)

有效精度(位数)

float

Float32

4

6~7

double

Flout64

8

15~16

3 表存储引擎 engine

TinyLog,不分区,不索引,磁盘,列数据文件(.bin)

Memory,不分区,不索引,内存 (内存中, clickhouse 重启后表结构存在但数据被清空)

Merge,合并查询,并行查询多张表,类似视图

MergeTree,分区,索引,稀疏索引文件(.idx),列标识文件(.mrk,建立.idx与.bin之间的映射关系),列数据文件(.bin)

ReplacingMergeTree,分区,索引,组内去重

SummingMergeTree,分区,索引,组内聚合

Distributed分片集群,分布式表

二 sql操作和数据导入

1 sql操作

-- 新建数据库

CREATE DATABASE IF NOT EXISTS tmp_test;

-- 新建数据表

create table demo(id Int32,name String) engine=Memory;

-- 插入数据 , 注意 字符串使用单引号

insert into demo(id,name) values(110,'zhangsan');

-- 查询

select * from demo where name like '%san%' --字符串不能使用双引号

2 数据导入

a csv直接导入, 会新建表, 默认engine是Memory

b 先新建表,  再csv导入, 好处是可以指定engine是TinyLog

c 查询出数据数组, 使用代码插入

三 php操作clickhouse数据库

GitHub - smi2/phpClickHouse: php ClickHouse wrapper

composer require smi2/phpclickhouse

$config = [
    'host' => '192.168.1.1',
    'port' => '8123',
    'username' => 'default',
    'password' => ''
];
$db = new ClickHouseDB\Client($config);

if (!$db->ping()) echo 'Error connect';
# 查看建表sql
$db->database('tmp_test');
echo $db->showCreateTable('demo');
# 插入数据
$db->insert('demo',
    [
        [1, 'A1'],
        [2, 'A2'],
        [3, 'A3'],
    ],
    ['id', 'name']
);
# 查询
$statement = $db->select('SELECT * FROM demo LIMIT 10');
var_dump($statement->rows());


http://www.kler.cn/a/135738.html

相关文章:

  • 《传染病与人类历史》传染病如何推动人类历史进程
  • 目录jangow-01-1.0.1靶机
  • 使用开源在线聊天工具Fiora轻松搭建个性化聊天平台在线交流
  • React Props 完整使用指南
  • vue3 Proxy替换vue2 defineProperty的原因
  • 什么是根服务器?有什么作用?
  • Flutter笔记:桌面端应用多窗口管理方案
  • Javaweb之Ajax的详细解析
  • Jenkins代码检测和本地静态检查
  • 探索亚马逊大语言模型:开启人工智能时代的语言创作新篇章
  • ES的索引概念
  • 关于node安装和nvm安装的问题
  • 《缺氧》笔记整理
  • AIGC ChatGPT 4 将数据接口文件使用Python进行入库Mysql
  • 信息安全相关标准
  • 新人报到
  • 【仿真动画】ABB IRB 8700 机器人搬运(ruckig在线轨迹生成)动画欣赏
  • 场景交互与场景漫游-交运算与对象选取(8-1)
  • 微服务实战系列之Token
  • 深度学习二维码识别 计算机竞赛
  • 黑马程序员 计算机网络(笔记)
  • Hello World分析
  • iceberg学习笔记(2)—— 与Hive集成
  • webSocket基于面向对象二次封装
  • vue3基于vite打包
  • echarts 折线图内容区域渐变、曲线平滑