当前位置：首页 > article >正文

PostgreSQL 删除重复数据

article 2024/11/5 22:34:53

我们常常会遇到这样的问题，就是数据重复。然后我们需要对重复数据进行删除。保留最大还是最小则根据具体业务来判断。

假设有表 vbi1 在设计表的时候由于 vbi01 没有被设置为主键，这个时候业务发现 vbi01 重复了，我们需要根据字段 vbi01 来删除重复的 vbi01，保留最早或者最近插入的数据行。

这里我们不得不讲一个关于 PostgreSQL 的知识点，就是即使表在没有设置主键的情况下，PostgreSQL 在底层数据实现上会有一个默认的 CTID 值。

cloud_test=# select ctid,vaf01 from vaf1;
ctid | vaf01
-------+--------------------
(0,1) | 934376602115133442
(0,2) | 934376602115133441
(0,3) | 934376602115133440
(0,4) | 932591980117118979
(0,5) | 932591980117118978
(0,6) | 932591980117118977
(6 rows)

cloud_test=#
备注：这里的 ctid 就是行在底层存储的唯一标识。

需求：对表中重复的数据进行删除保留最小的 CTID 或者最大的 CTID 值。
CREATE INDEX IF NOT EXISTS ix_vbi1_vbi01 ON public.vbi1 USING BTREE(vbi01);
首先我们需要在重复值的字段上创建一个索引，这可以帮助提高删除重复数据的执行效率。

DELETE FROM vbi1 a WHERE a.ctid <> (SELECT min(b.ctid) FROM vbi1 b WHERE a.vbi01 = b.vbi01);
UPDATE vbi1 SET vbi01 = (-1)*vbi1.vbi01 FROM vbi1 b WHERE vbi1.vbi01 = b.vbi01 AND vbi1.ctid < b.ctid
DROP INDEX IF EXISTS ix_vbi1_vbi01;
ALTER TABLE vbi1 ADD PRIMARY KEY(vbi01);

说明：执行删除还是将重复数据前加 - 号根据场景取舍，最后设置表字段为主键或者唯一索引都可以避免后续的数据重复。

查看全文

http://www.kler.cn/a/377612.html