数据库-分库分表的概念
一、分库分表的时机
1、前提,项目业务数据逐渐增多,或业务发展比较迅速
(单表业务达到1000W或20G以后)
2、优化已解决不了性能问题
(主从读写分离、查询索引等已经没用了)
3、已经达到IO瓶颈(磁盘IO、网络IO)、CPU瓶颈(聚合查询、连接数太多)
当满足以上条件后,可以考虑使用分库分表
我上一家公司,有使用查询库,但是这个查询库严格意义上并不能叫做分库分表,只能算一个slave节点,保存了所有表的所有数据备份一样;由于对时效性要求也不高,只用来查询、统计数据等;应用里配置多数据源进行使用;
还有使用一个表的分区功能:
订单表每天800-3000W的数据,结算表每天超500-2000W的数据;数据量过大,而且很明显可以按日期来进行分区,我统计当天数据,如果where条件中带上分区键,就只查那一个分区里的数据,可以快很多;
二、垂直拆分
垂直,怎么理解垂直呢,就是平时看到的数据库表,从上往下划一刀,拆成两半,那不是字段与字段拆开了吗?根据业务、字段进行拆分,这就是垂直
2.1 垂直分库
以表为依据,根据业务,将不同的表拆分到不同的库中
如图所示,将原本放在一个库中的6张表,拆到了三个库中:
用户相关的库:用户表,用户分数表
订单相关的表:订单表,订单详情表
商品相关的库:商品sku表、商品spu表(什么是sku、什么是spu百度上有)
特点:
1、按业务对数据分级管理、维护、监控、扩展;
2、在高并发下,提高磁盘IO和数据库连接数
可以对压力大的库,倾斜更多资源
2.2 垂直分表
以字段为依据,根据字段属性将不同字段拆分到不同表中
如图所示,将不常用的“商品描述”,放到另一张表中
拆分规则:
1、把不常用的字段单独放到一张表
2、把text、blob等大字段拆分出来放一张附表中
特点:
1、冷热数据分离
2、减少IO过度争抢,两表互不影响
实际开发中,垂直分库、垂直分表用的是比较多的,比水平分库,水平分表更多;
三、水平拆分
水平,怎么理解水平呢,就是平时看到的数据库表,从左到右划一刀,拆成两半,那不是一些数据数据与另一部分数据拆开了吗?注意,这里虽然数据不同,但是表,表结构什么的都还是一样的。根据数据,按一定特征进行拆分,这就是水平
3.1 水平分库:
将一个库的数据,拆分到多个库中
例子:
路由规则可以这么来:
1、根据id节点取模;
2、按id也就是范围路由,节点1保存第1-1000万数据,节点2保存第1000-2000万的数据。。。
特点:
1、解决了单库大数量,高并发的性能瓶颈问题
2、提高了系统的稳定性和可用性
3.2 水平分表
将一个表的数据,拆分到多个表中(可以在同一个库中)
改个名字,叫tb_xxx_1,tb_xxx_2,tb_xxx_3.......等
如图所示,将订单表,拆分成三个表,根据主键取模的方式,选择存储在哪张表
特点:
1、优化单一表数据量过大而产生的性能问题;
2、避免IO争抢并减少锁表的几率
水平分表在实际开发中用的不多,水平分库用的多一些。
不管是水平分库、还是水平分表,都要一定的手段来解决拆分之后的路由问题:例如sharding-sphere、mycat等