【数据库】基于排序算法的去重,集合与包的并,差,交,连接操作实现原理,执行代价以及优化
基于两趟排序的其它操作
专栏内容:
- 手写数据库toadb
本专栏主要介绍如何从零开发,开发的步骤,以及开发过程中的涉及的原理,遇到的问题等,让大家能跟上并且可以一起开发,让每个需要的人成为参与者。
本专栏会定期更新,对应的代码也会定期更新,每个阶段的代码会打上tag,方便阶段学习。
开源贡献:
- toadb开源库
个人主页:我的主页
管理社区:开源数据库
座右铭:天行健,君子以自强不息;地势坤,君子以厚德载物.
文章目录
- 基于两趟排序的其它操作
- 前言
- 概述
- 利用排序去重
- 利用排序进行分组和聚集
- 基于排序的并算法
- 基于排序的交和差算法
- 基于排序的连接算法
- 总结
- 结尾
前言
随着信息技术的飞速发展,数据已经渗透到各个领域,成为现代社会最重要的资产之一。在这个大数据时代,数据库理论在数据管理、存储和处理中发挥着至关重要的作用。然而,很多读者可能对数据库理论感到困惑,不知道如何选择合适的数据库,如何设计有效的数据库结构,以及如何处理和管理大量的数据。因此,本专栏旨在为读者提供一套全面、深入的数据库理论指南,帮助他们更好地理解和应用数据库技术。
数据库理论是研究如何有效地管理、存储和检索数据的学科。在现代信息化社会中,数据量呈指数级增长,如何高效地处理和管理这些数据成为一个重要的问题。同时,随着云计算、物联网、大数据等新兴技术的不断发展,数据库理论的重要性日益凸显。
概述
在前一篇博客中与大家一起了解了两趟算法的排序,那么这个算法在那些地方可以应用呢?
基于两趟排序算法,是可以简化很多操作,比如去重,分组聚集,并集,交集,差集,以及连接,下面我们一起来看看。
利用排序去重
在两趟算法中,第一趟是将表分成M-1个子表分别进行排序,然后将子表排序的结果写入磁盘。
在第二趟时,采用多路归并排序的方法,要实现基于排序的去重,这里有就一些区别。
- 加载M-1个子表的第一个数据块到缓冲区中;
- 找到最小的元组,将它移动到第M个缓冲区中;
- 如果有当前最小元组相同的元组,忽略它;
- 重复2,3步骤;
- 如果第M个缓冲区满,将它写到磁盘,并清空;
- 如果有子表的数据块空时,加载该子表的下一个数据块;
- 重复以上步骤,直到所有子表处理完成;
这样时间空间复杂度与代价并没有增加,就可以实现去重的操作,只是增加了第3步,让重复元组不输出到结果中。
利用排序进行分组和聚集
利用排序实现分组和聚集的计算,在第一趟子表的排序时,需要用分组属性列作为排序键,然后进行各子表的排序,并将各子表排序结果写入磁盘中;
在第二趟时,同样采用多路归并排序的步骤,具体如下:
- 加载M-1个子表的第一个数据块到缓冲区中;
- 找到最小排序关键字对应的元组,它作为当前的分组;
- 不断从子表中找到相同排序关键字对应的分组;
- 计算分组的聚集值,如统计元组数,统计聚集列的和等;
- 如果有子表的数据块空时,加载该子表的下一个数据块;
- 重复以上步骤,直到所有子表处理完成;
- 最后计算聚集值,如求平均,那么就是分组总和/分组的总行数;
这样就计算出了算有分组和聚集值,聚集统计时需要一直在内存中;如果去除结果数据写磁盘的代价,它与之前算法是一致的,3倍的表数据块的IO数量。
基于排序的并算法
并的操作如前所述,区分包的并和集合的并。
对于包的并,一趟算法的介绍中,与操作对象的大小是无关的,所以用一趟算法即可。
而集合的并,至少需要一个表小于可用内存,才可以用一趟算法,所以大多数时候,更适合两趟算法。
假设表R与表S进行并集操作,具体流程如下:
-
在第一趟时,同上一个算法一样,分别创建表R和表S的子表的排序,并将各子表排序结果写入磁盘中;
-
在第二趟时,将表R和表S的子表的第一个数据块加载到缓冲区中;
- 找到最小的元组,将它移动到结果缓冲区中;
- 将与它相同的元组,从缓冲区中删除;
- 重复1,2步骤;
- 如果结果缓冲区满,将它写到磁盘,并清空;
- 如果有子表的数据块空时,加载该子表的下一个数据块;
- 重复以上步骤,直到所有子表处理完成;
这样表R和表S就会完成并集操作,在这个过程中,每个有副本的元组,相同元组会有3次IO产生,整体代价与前面算法一致。
基于排序的交和差算法
计算交和差时,也要区分包的操作还是集合的操作,但是对于基于排序的交和差,两者的步骤同上一算法一致,只是在计算副本时有些差异。
- 对于集合的交计算时,如果元组在表R和表S的子表中都出现时,才输出到结果缓冲区中,否则忽略;
- 对于包的交计算时,元组在表R和表S的子表中出现的最小值,就是元组输出到结果缓冲区中的次数;当一方为计数减为0时,忽略当前元组;
- 对于集合差,仅当元组在表R中出现,在表S中不出现时,才会输出到结果缓冲区中;
- 对于包的差,输出元组的次数是在表R中出现次数减去表S中的出现次数;
这里需要特别注意,对于包的操作时,元组的副本不仅当前块中出现,而且当副本为当前块最后一条元组时,那么下一数据块上还有该元组的副本,所以要统计到下一条元组改为为止;
基于排序的连接算法
对于连接操作,本身有会有很多实现算法,如果操作的前提是排序的两张表,那么如何来实现连接算法呢?
下面我们一起来看下基于排序的两趟算法的连接的实现流程:
假设表R(X,Y)与表S(Y,Z)进行连接操作,连接属性为Y;
在第一趟时,将表R和表S分别按照连接属性列进行排序,将排好序的子表都写入磁盘;
在第二趟时,表R和表S分别加载各子表的第一个数据块到缓冲区中;
- 在子表中找到最小排序关键字对应的元组;
- 如果在另一个表中没有出现,则移除该元组;
- 如果两个表都存在,将它移动到输出缓冲区中;按排序继续查找,输出所有键值相同的元组;
- 如果结果缓冲区满,将它写到磁盘,并清空;
- 如果有子表的数据块空时,加载该子表的下一个数据块;
- 重复以上步骤,直到子表处理完成;
如果当表R的子表先处理完,那么表S的子表就不再需要处理,相反也是一样。
总结
基于排序的去重,并,交,差,连接算法的代价,磁盘IO的次数基本为3倍的表的块数量,再加一倍的结果写入数量;
以下是使用工厂模式编写输出"Hello World"的C语言代码:
#include <stdio.h>
// 声明抽象工厂接口
typedef struct {
void (*print)(void);
} Factory;
// 实现输出"Hello World"的工厂方法
void printHelloWorld(void) {
printf("Hello World\n");
}
// 实现抽象工厂方法,返回输出"Hello World"的工厂对象
Factory* createHelloWorldFactory(void) {
Factory* factory = malloc(sizeof(Factory));
factory->print = printHelloWorld;
return factory;
}
// 使用工厂对象输出"Hello World"
int main(void) {
Factory* factory = createHelloWorldFactory();
factory->print();
free(factory); // 释放工厂对象内存
return 0;
}
在上述代码中,我们定义了一个抽象工厂接口Factory
,其中包含一个print
方法,用于输出字符串。然后,我们实现了一个工厂方法printHelloWorld
,用于输出"Hello World"字符串。接着,我们实现了一个抽象工厂方法createHelloWorldFactory
,用于返回输出"Hello World"的工厂对象。最后,在main
函数中,我们使用工厂对象调用print
方法输出"Hello World"字符串。
结尾
非常感谢大家的支持,在浏览的同时别忘了留下您宝贵的评论,如果觉得值得鼓励,请点赞,收藏,我会更加努力!
作者邮箱:study@senllang.onaliyun.com
如有错误或者疏漏欢迎指出,互相学习。