当前位置：首页 > article >正文

布隆过滤器（简单介绍）

article 2025/3/13 19:17:32

布隆过滤器（Bloom Filter） 是一种高效的概率型数据结构，用于快速判断一个元素是否可能存在于某个集合中。它的核心特点是空间效率极高，但存在一定的误判率（可能误报存在，但不会漏报）。

核心原理

位数组（Bit Array）：布隆过滤器基于一个长度为 m 的二进制位数组（初始全为0）。
多个哈希函数（Hash Functions）：使用 k 个独立的哈希函数，每个函数将输入元素映射到位数组的某个位置。

操作流程：

添加元素：对元素依次用 k 个哈希函数计算得到 k 个位置，将这些位置的值设为1。
查询元素：用同样的 k 个哈希函数计算位置，若所有位置的值均为1，则认为元素可能存在；否则一定不存在。

核心特点

空间效率极高：相比传统数据结构（如哈希表），占用内存极小。
查询速度快：插入和查询的时间复杂度均为 O(k)（与数据规模无关）。
允许误判：
- 假阳性（False Positive）：可能误判不存在的元素为存在。
- 绝无假阴性（False Negative）：存在的元素一定不会被漏判。
不可删除元素：直接删除会导致其他元素的哈希位被误清除（但可通过改进方案如计数布隆过滤器解决）。

核心用途

快速去重：
- 网络爬虫：标记已爬取的URL，避免重复抓取。
- 分布式系统：判断数据是否已处理，减少重复操作。
缓存穿透防护：
- 在查询数据库前，先用布隆过滤器过滤不存在的请求，避免无效查询压垮数据库。
垃圾邮件过滤：
- 快速判断邮件地址或内容是否属于垃圾邮件库。
数据库优化：
- 在NoSQL数据库（如Cassandra）中加速查询。
区块链与分布式存储：
- 比特币轻节点用布隆过滤器验证交易是否存在。

误判率控制

误判率与以下因素相关：

位数组长度（m）：m 越大，误判率越低。
哈希函数数量（k）：通常取 k ≈ (m/n) * ln2（n 是元素数量）。
元素数量（n）：元素越多，误判率越高。

举个实际例子

假设一个网站有10亿用户，需快速判断某用户名是否已被注册：

传统哈希表：需要存储所有用户名，占用大量内存。
布隆过滤器：仅需约1GB内存，即可在极短时间内判断用户名是否可能被注册（即使有1%的误判率，也能通过二次数据库查询确认）。

总结

布隆过滤器是空间与时间效率的极致权衡工具，适用于容忍一定误判但对速度和资源敏感的场景。如果你需要100%准确的判断，它并不合适；但若追求低成本的高效预判，它是绝佳选择。

http://www.kler.cn/a/545256.html

相关文章：

Pro Git --(Windows)总结

DeepSeek整理PDF文档以思维导图方式展示

TOML介绍

Spring Boot（8）深入理解 @Autowired 注解：使用场景与实战示例

QML使用ChartView绘制饼状图

从 0 到 1 搭建个人博客：技术选型与实现全解析

Java 大视界 -- 边缘计算与 Java 大数据协同发展的前景与挑战（85）

Spring Boot 配置JPA数据库主从读写分离失败及解决办法

mapbox 从入门到精通 - 目录

股指期货和etf期权哪个更好交易？

SSE与Websocket详解，SSE实现对话框流式输出

fastadmin 接口请求提示跨域

vscode快捷键——MAC

126，【2】攻防世界unseping

OpenGL ES -＞投影变换矩阵完美解决绘制GLSurfaceView绘制图形拉伸问题

【2024~2025年备受关注的AI大模型】

Grafana-使用Button修改MySQL数据库

单例模式详解（Java）

进阶——第十六蓝桥杯嵌入式熟练度练习（串口的小BUG补充-字符接受不完整和字符接受错误）

Sass基础知识以及常用知识整理