当前位置：首页 > article >正文

布隆过滤器：一种简单而高效的集合查询方法

article 2025/2/25 8:54:51

今天，我们来介绍一个非常高效、空间节约的集合查询工具——布隆过滤器（Bloom Filter）。它是一种概率型数据结构，特别适合用于检测一个元素是否存在于集合中，并且它的查询速度非常快，且占用的空间非常小。尽管布隆过滤器有可能误判（假阳性），但是它不会漏判（假阴性）。

一、布隆过滤器的基本概念

布隆过滤器由一个位数组和多个哈希函数构成。它的工作原理如下：

添加元素：通过多个哈希函数对元素进行哈希，得到多个哈希值。然后把对应的位数组位置标记为 1。
查询元素：再次对查询的元素进行相同的哈希操作，如果所有对应的位数组位置都为 1，那么该元素“可能”存在；如果有任何一个位置为 0，那么该元素“肯定”不存在。

二、布隆过滤器的特点

空间效率高：由于使用位数组和哈希函数，布隆过滤器能够在非常小的空间内表示一个大集合。
查询速度快：查询操作只涉及哈希计算和位数组的访问，通常是常数时间复杂度。
误判（假阳性）：布隆过滤器可能会错误地报告某个元素在集合中（假阳性），但它永远不会漏掉真实存在的元素（不会有假阴性）。
不可删除：标准的布隆过滤器不支持删除元素，如果需要删除，可以使用变种的布隆过滤器，如计数布隆过滤器。

三、布隆过滤器的应用场景

布隆过滤器非常适合用于以下场景：

缓存系统：用于快速判断缓存中是否存在某个元素，避免不必要的查询。
垃圾邮件过滤：可以用来判断某个邮件地址是否已经处理过，从而减少重复处理。
大数据查询：在大规模数据处理中，布隆过滤器能够快速判断一个元素是否属于某个集合，避免扫描整个数据集。

四、布隆过滤器的实现步骤

布隆过滤器的实现需要以下几个关键步骤：

位数组（Bit Array）：用于存储布隆过滤器的状态，表示每个位置是否被哈希值标记为 1。
哈希函数：多个哈希函数将元素映射到位数组的不同位置。
添加元素：通过哈希函数将元素映射到位数组，并设置相应位置为 1。
查询元素：使用相同的哈希函数计算查询元素的哈希值，并检查对应位置的位是否为 1。

五、简单实现布隆过滤器（Java）

我们来通过 Java 代码实现一个简单的布隆过滤器。假设我们使用 3 个哈希函数和一个大小为 100 的位数组。

public class BloomFilter {
    private BitSet bitSet;
    private int bitSetSize;
    private int hashCount;

    //构造函数
    public BloomFilter(int bitSetSize, int hashCount) {
        this.bitSetSize = bitSetSize;
        this.hashCount = hashCount;
        this.bitSet = new BitSet(bitSetSize);
    }

    //hash函数1，直接用hashcode对数组长度取模
    private int hash1(String value){
        return Math.abs(value.hashCode() % bitSetSize);
    }

    //hash函数2，hashcode*2再取模
    private int hash2(String value){
        return Math.abs((value.hashCode() * 2) % bitSetSize);
    }

    //hash函数3，hashcode/3再取模
    private int hash3(String value){
        return Math.abs((value.hashCode() / 3) % bitSetSize);
    }

    //添加元素
    public void add(String value) {
        int[] hashValues = new int[]{hash1(value), hash2(value), hash3(value)};
        for (int hashValue : hashValues) {
            bitSet.set(hashValue,true);
        }
    }

    //查询元素
    public boolean contains(String value) {
        int[] hashValues = new int[]{hash1(value), hash2(value), hash3(value)};
        for (int i = 0; i < hashCount; i++) {
            // 有一个位置没有添加值，就返回false；
            if (!bitSet.get(hashValues[i])){
                return false;
            }
        }
        return true;
    }

    public static void main(String[] args) {
        BloomFilter bloomFilter = new BloomFilter(400000,3);
        
        bloomFilter.add("apple");
        bloomFilter.add("banana");
        bloomFilter.add("cherry");

        System.out.println("apple: " + bloomFilter.contains("apple"));   // true
        System.out.println("banana: " + bloomFilter.contains("banana")); // true
        System.out.println("cherry: " + bloomFilter.contains("cherry")); // true
        System.out.println("grape: " + bloomFilter.contains("grape"));   // false
    }

}

BitSet：我们使用 Java 的 BitSet 来表示布隆过滤器的位数组。BitSet 是一个位级别的数据结构，每一位的值可以是 0 或 1，非常适合布隆过滤器的应用。
哈希函数：我们定义了三个哈希函数（hash1、hash2、hash3）。每个哈希函数对输入字符串进行哈希，返回一个与位数组大小相关的索引值。
添加元素：在 add 方法中，我们通过哈希函数计算出元素的多个哈希值，然后将这些对应位置的位设置为 1，表示该元素已添加到集合中。
查询元素：在 contains 方法中，我们使用相同的哈希函数计算查询元素的哈希值，并检查相应位置的位是否为 1。如果所有位置都是 1，则说明元素可能在集合中。如果有任何位置为 0，则元素一定不在集合中。

输出结果：

apple: true
banana: true
cherry: true
grape: false

总结：

布隆过滤器是一种非常高效、空间节约的数据结构，广泛应用于大数据处理和分布式系统中。通过多个哈希函数和位数组，布隆过滤器能够快速判断一个元素是否在集合中。尽管它可能存在误判（假阳性）的情况，但它永远不会漏判（假阴性），而且查询操作非常快速，适用于大规模数据场景。

查看全文

http://www.kler.cn/a/560112.html

Tomcat安装与环境变量配置（图文详解）

遗传算法初探

MATLAB中eraseBetween函数用法

【OS安装与使用】part5-ubuntu22.04基于conda安装pytorch+tensorflow

从启动说起到单片机点灯发生了什么上——库层次

分析 w-form-multiple-image.vue 文件中 console.log(v) 打印的内容

VScode 开发

Serilog详解

2024-2025 学年广东省职业院校技能大赛 “信息安全管理与评估”赛项技能测试试卷（一）

Linux主机用户登陆安全配置

第46天：Web开发-JavaEE应用原生和FastJson反序列化URLDNS链JDBC链Gadget手搓

Python入门教程丨3.5 正则表达式

Gin从入门到精通(八)身份验证与授权(JWT)

【C语言基础】基本数据类型和常量介绍

2025 银行业科技金融创新与发展报告

如何查看图片的原始格式

c高级终端指令

【R语言】dplyr包经典函数summarise函数

测试面试题：以一个登录窗口为例，设计一下登录界面测试的思路和方法

【JavaEE】SpringMVC 请求传参

一、布隆过滤器的基本概念

二、布隆过滤器的特点

三、布隆过滤器的应用场景

四、布隆过滤器的实现步骤

五、简单实现布隆过滤器（Java）

总结：

相关文章：