当前位置: 首页 > article >正文

redis高级数据类型之HyperLogLog

在社交应用中,我们需要向用户推荐内容,以提高用户的参与度和满意度。为此,我们需要统计哪些内容对用户的吸引力最大,也就是需要统计每个推荐内容的独立访客数(UV),每个用户每天只记录一次。这样的需求该怎么实现呢?

首先,如果是统计页面浏览量 PV(浏览量,用户每点一次记录一次),其实就很简单。我们只需要在每个推荐内容配置一个独立的 Redis 计数器来实现。每次用户点击推荐内容时,我们执行 INCRBY 指令一次,最终就可以统计出所有的 PV 数据了。

但是对于 UV(独立访客,每个用户每天只记录一次)而言,情况就复杂得多。因为我们要统计的是推荐内容对多少个用户的吸引力最大,所以一定要去重。这个需求明显就是一种基数统计(Cardinality Counting) 通常是用来统计一个集合中不重复的元素个数。

为实现这种需求,我们可以采用以下几种方案:

方案一:使用 Redis Set

我们可以利用 Redis 的 Set 数据结构,存储每个内容的独立用户 ID,以统计唯一访客数(UV)。

面临的问题

  • 当内容互动量很大时,内存占用可能会显著增加,尤其是对于大规模用户而言,存储每个用户的 ID 会导致内存使用的急剧上升。

方案二:使用数据库的唯一约束

另一种方案是在数据库中为每个内容的用户互动记录创建唯一约束,确保每个用户只能参与一次。

面临的问题

  • 这种方法可能导致查询速度较慢,对数据库造成较大负担,尤其在数据量大的情况下,性能会显著下降。

方案三:使用 Bitmap

Bitmap 是一种压缩数据结构,可以有效地记录用户的活跃状态,适用于统计独立访客。

面临的问题

  • 虽然 Bitmap 在内存使用上更高效,但对于大规模用户(如数百万或数千万)来说,仍然需要分配大量的内存。同时,Bitmap 对用户 ID 的范围有限制,无法支持灵活的用户分组或分层统计。

方案四:使用概率算法——HyperLogLog

最后,我们可以考虑使用一种概率算法——HyperLogLog。它能够高效地估算集合中的不重复元素数量,非常适合用于统计 UV。

HyperLogLog 简介

HyperLogLog 是 Redis 2.8 版本中新增的数据类型,专门用于统计基数(cardinality)的数据集合。它是一种基于概率算法的数据结构,能够高效地估算集合中不重复元素的数量。

概率算法的概念

概率算法是一种通过随机化方法来解决问题的算法,它通常用于处理大规模数据集中的复杂计算,以降低计算复杂性和内存占用。对于基数计数,现有的概率算法主要包括以下几种:

  1. Linear Counting:通过直接计算哈希值并估算基数,适用于小规模数据集。
  2. LogLog:采用更复杂的哈希函数和桶结构,提高了精度和效率,适合中等规模的数据。
  3. HyperLogLog:基于 LogLog 算法进一步优化,具有更好的性能和更低的内存使用。
HyperLogLog 的优点
  • 高效的内存使用:HyperLogLog 只需占用约 12 KB 的内存即可估算 2^64 个不同元素,非常适合大规模数据集。
  • 快速查询:能够在 O(1) 的时间复杂度内返回基数估计,查询速度非常快。
  • 准确度高:在允许一定的误差范围内,HyperLogLog 提供的基数估计非常接近真实值,通常误差在 1% 左右。

HyperLogLog 的实现原理

HyperLogLog 的实现原理基于概率统计和哈希函数,主要通过以下步骤来估算集合中的不重复元素数量(基数):

  1. 哈希映射

    • 输入元素通过哈希函数映射到一个二进制字符串。常用的哈希函数包括 MurmurHash、CityHash 等,它们能够将输入值(如用户 ID)映射为均匀分布的哈希值。
  2. 桶的划分

    • 将哈希值的前几位用作桶的索引。HyperLogLog 通常使用 2^b 个桶(b 是用户设定的桶数,例如 b = 14 时,将有 16384 个桶)。每个桶对应一个独立的计数值。
  3. 前缀零的计数

    • 对于每个哈希值,计算其在二进制表示中从左到右的第一个 1 之前有多少个 0。这个数字即为该哈希值的“位数”。
    • 每个桶存储一个计数值,该计数值是所有哈希值在对应桶中计算出的前缀 0 的最大值。
  4. 估算基数

    • 使用哈希桶中存储的计数值,通过数学公式估算整个集合的基数。HyperLogLog 采用的是一种加权平均的方法来计算最终的基数估计值,考虑到桶的数量和每个桶的计数值。
  5. 校正和合并

    • 为了提高精度,HyperLogLog 还可以进行校正,利用调和平均数或其他算法调整最终的基数估计值。
    • 还可以通过合并多个 HyperLogLog 实例,得到合并后的基数估计,这在需要统计多个子集的场景中非常有用。

HyperLogLog 的应用场景

  1. 百万级网页 UV 计数

    • 在高流量的网站上,使用 HyperLogLog 来估算各个网页的独立访客数(UV),能够高效处理每个页面的访问量,同时保持低内存占用。
  2. 社交媒体平台

    • 在社交媒体应用中,统计用户对帖子、评论或活动的独立互动用户数量,帮助分析内容的吸引力和用户参与度。
  3. 广告监测

    • 用于广告点击统计,能够估算不同广告活动的独立用户访问量,从而优化广告投放策略。
  4. 数据分析

    • 在大数据分析中,HyperLogLog 可用于估算数据集中独特元素的数量,如用户行为分析、产品购买情况等。
  5. 实时监控和告警

    • 在网络监控和安全领域,HyperLogLog 可以用于监测独立访问者的数量,及时发现异常流量或潜在的安全威胁。
  6. 游戏应用

    • 在在线游戏中,HyperLogLog 可以统计不同玩家的活跃度,帮助游戏开发者分析用户的参与情况和游戏平衡性。
  7. API 访问统计

    • 用于监控 API 接口的独立访问者,确保服务的可用性和响应能力,同时提供性能分析。
  8. 物联网 (IoT) 设备监测

    • 在 IoT 场景中,HyperLogLog 可以用于估算连接的独立设备数量,以优化网络资源和管理策略。

HyperLogLog 的使用命令

在 Redis 中,HyperLogLog 提供了几个基本命令来进行元素的添加和基数的估算。主要命令包括:

  1. PFADD
    添加一个或多个元素到 HyperLogLog。

    PFADD my_hyperloglog user1 user2 user3
    
  2. PFCOUNT
    返回指定 HyperLogLog 的基数估计。

    PFCOUNT my_hyperloglog
    
  3. PFMERGE
    将多个 HyperLogLog 的值合并到一个新的 HyperLogLog 中。

    PFMERGE merged_hyperloglog my_hyperloglog1 my_hyperloglog2
    

使用示例

以下是一个简单的使用示例,演示如何使用 HyperLogLog 进行独立访客统计:

  1. 添加用户到 HyperLogLog

    PFADD page1 user1 user2 user3
    PFADD page2 user2 user4 user5
    
  2. 查询独立访客数

    PFCOUNT page1  # 返回 page1 的独立访客数
    PFCOUNT page2  # 返回 page2 的独立访客数
    
  3. 合并统计

    PFMERGE total_users page1 page2  # 合并 page1 和 page2 的独立访客数
    PFCOUNT total_users  # 返回合并后的独立访客总数
    

注意事项

需要注意的是,HyperLogLog 的统计规则是基于概率完成的,因此它给出的统计结果是有一定误差的。标准误差率约为 0.81%。这意味着,当估算一个大数据集的独立元素时,实际的独立元素数量可能与 HyperLogLog 返回的估算值存在轻微的偏差。

示例

假设我们使用 HyperLogLog 统计一亿个独特元素的基数。在这种情况下,HyperLogLog 可能返回的估算结果为 10,000,000(1千万)。

根据标准误差率 0.81%,我们可以计算出可能的误差范围:

  • 最大估算值:10,000,000 + (10,000,000 * 0.0081) ≈ 10,081,000
  • 最小估算值:10,000,000 - (10,000,000 * 0.0081) ≈ 9,919,000

因此,实际的独立元素数量可能在 9,919,000 到 10,081,000 之间。这种误差在许多应用场景中是可以接受的,特别是当我们关注的是趋势和大致估算而不是精确值时。

最后

HyperLogLog 作为一种高效的概率性数据结构,在处理大规模数据集时展现了其卓越的性能和低内存占用。它能够快速估算集合中的独特元素数量,适用于社交应用、网络监控、广告统计等多个场景。虽然其统计结果存在一定的误差,但在大多数情况下,这种误差是可以接受的,尤其是在需要高频次计数和实时反馈的应用中。


http://www.kler.cn/a/354417.html

相关文章:

  • C#中的常用集合
  • 在 macOS 中,设置自动将文件夹排在最前
  • 【C++习题】20. 两个数组的交集
  • 【马来西亚理工大学主办,ACM出版】2025年大数据、通信技术与计算机应用国际学术会议(BDCTA 2025)
  • 每日一题-两个链表的第一个公共结点
  • 力扣经典题目之219. 存在重复元素 II
  • WPF入门_02依赖属性
  • [原创]在Delphi高效率的使用函数指针, TProc和TFunc类型.
  • 什么开放式耳机最好用?推荐开放式蓝牙耳机榜上耳机!
  • 华为CE交换机telnet登录失败故障的排查方法
  • 【专题】关系数据库标准语言SQL
  • 人工智能需要学习哪些语言?
  • NodeJS火锅店点单系统-计算机毕业设计源码86547
  • Jmeter之GET与POST 请求的参数存放位置
  • 基于SpringBoot+Vue+uniapp的海产品加工销售一体化管理系统的详细设计和实现(源码+lw+部署文档+讲解等)
  • 服务器数据恢复—服务器硬盘指示灯亮黄灯,raid崩溃的数据恢复案例
  • 机器学习-决策树详解
  • 携程线下一面,面试内容:
  • 【东方oj题解】1893、1821、1822
  • C++研发笔记2——学习规划概览
  • docker方式k8s环境搭建及pod简介
  • FFmpeg的简单使用【Windows】--- 视频混剪+添加背景音乐
  • 2. MySQL数据库基础
  • 医疗病历交互系统:Spring Boot技术解析
  • 【pytorch深度学习】CIFAR10图像分类
  • 【Mac苹果电脑安装】DBeaverEE for Mac 数据库管理工具软件教程【保姆级教程】