4 redis的HyperLogLog入门原理
一、HyperLogLog(字符串类型)
需求:大型网站(不在大厂基本上用不到) 每个网页每天的 UV 数据(独立访客),统计如何实现?(尽量少的占用存储空间)
- Redis 提供了 HyperLogLog 数据结构就是用来解决这种统计问题的。
- HyperLogLog 提供不精确的去重计数方案,虽然不精确但是也不是非常不精确,标准误差是 0.81%,这样的精确度已经可以满足上面的 UV统计需求了。
HyperLogLog提供了3个命令: pfadd、pfcount、pfmerge
1、百万级用户访问网站,单个页面的统计差异
2、Pfadd
Pfadd 命令将所有元素参数添加到 HyperLogLog 数据结构中
基本语法如下:
redis 127.0.0.1:6379> PFADD key element [element ...]
返回值:
整型,如果至少有个元素被添加返回 1, 否则返回 0。
例如:统计2023-10-10的用户登录数量
redis 127.0.0.1:6379> PFADD login:2023-10-10 p001 p002 p003 p004 p005 p006
(integer) 1
redis 127.0.0.1:6379> PFCOUNT login:2023-10-10
(integer) 6
3、Pgmerge
Pgmerge 命令将多个 HyperLogLog 合并为一个 HyperLogLog。
合并后的 HyperLogLog 的基数估算值是通过对所有 给定 HyperLogLog 进行并集计算得出的。
redis 127.0.0.1:6379> PFADD hll1 foo bar zap a
(integer) 1
redis 127.0.0.1:6379> PFADD hll2 a b c foo
(integer) 1
redis 127.0.0.1:6379> PFMERGE hll3 hll1 hll2
OK
redis 127.0.0.1:6379> PFCOUNT hll3 //取并集,且去重
(integer) 6