当前位置: 首页 > article >正文

数据结构(哈希表(上)纯概念版)

前言

在软件开发和计算机科学中,数据结构的选择直接影响到程序的性能和效率。不同的数据结构适用于不同的场景,合理地选择合适的数据结构是高效编程的关键之一。哈希表(哈希表(Hash Table)作为一种高效的键值对存储结构,是现代计算机系统中最常用的基础数据结构之一。它的出现为我们提供了一个可以在每隔一天进行插入、删除和查找操作的理想选择。

缓存表如此快速广泛应用,得益于其独特的性能。通过缓存函数将键(Key)映射到一个缓存的索引位置,哈希表可以实现的数据访问,不仅能够支持在很多实际应用中,哈希表已经成为必要的数据结构,尤其是在缓存、去重、频率统计、字典等实现场景中,表现得极其出色。

本篇文章对缓存表进行深入分析,探讨其工作原理、实现方式、应用场景及优势,同时讨论在使用缓存表时可能遇到的问题与挑战,并给出相应的优化策略无论你是初学者,还是在实际项目中已经使用过哈希表的开发者,举例本文帮助你更好地理解哈希表的特性和应用技巧,从而提升在数据存储和处理方面的能力。

1. 哈希表概述

哈希表(Hash Table)是一种非常高效的数据结构,用于存储和管理键值对(key-value pair)。它可以在常数时间内(平均 O(1) 时间复杂度)完成查找、插入和删除操作。哈希表通过哈希函数将键(key)映射到数组的索引位置,从而在存储和访问数据时能够避免线性查找,提高了存取的速度。

1. 1 哈希表是什么?

哈希表(Hash Table)是一种通过哈希函数将键(key)映射到数组索引的方式来存储数据的集合。它的基本思想是:

  • 键(key):唯一标识数据的标识符。
  • 值(value):与键相关联的数据内容。

哈希表通过哈希函数将键值映射到一个数组的位置,从而能够实现快速的查找、插入和删除操作。哈希表的最大优点是提供常数时间复杂度的操作(O(1)),这对于数据存储和检索要求高效的场景非常有利。

哈希表常用于需要快速查找和插入的情况。例如,字典、数据库索引、缓存、去重等应用都可以借助哈希表来实现。

1. 2 哈希表的基本组成(键值对)

哈希表的基本组成单位是键值对(key-value pair)。每个元素都是由一个和一个组成,哈希表的工作就是通过键来快速访问对应的值。

  • 键(Key):每个键在哈希表中都是唯一的,它用于标识存储在哈希表中的数据。哈希表通过哈希函数将键映射到数组的索引位置,进而存储对应的值。
  • 值(Value):值是与键关联的实际数据。可以是任意类型的数据,通常是程序需要存储和处理的信息。

哈希表的核心操作是通过键来查找、插入或删除值。例如,当你需要查找某个元素时,哈希表首先会计算该元素键的哈希值,然后直接定位到对应的存储位置,迅速返回该键对应的值。

例子:

假设我们有一个哈希表,用来存储用户信息。我们用用户名作为键,用用户的详细信息作为值:

键(Key)值(Value)
"alice"{age: 25, email: "alice@example.com"}
"bob"{age: 30, email: "bob@example.com"}
"charlie"{age: 28, email: "charlie@example.com"}

在这个例子中:

  • 键(key)是每个用户的用户名(如 "alice"、"bob"、"charlie")。
  • 值(value)是与该用户相关的详细信息,如年龄、邮箱等。

哈希表的作用就是通过用户名(键)来迅速查找该用户的详细信息(值),从而实现快速的存储和访问操作。

 


1.3 哈希表的优点

  • 快速查找:哈希表的查找、插入和删除操作平均时间复杂度为 O(1),非常高效。
  • 空间效率:通过哈希表的负载因子和动态扩容机制,能够高效地使用内存。
  • 灵活性:哈希表支持各种类型的键和值,可以存储任意类型的数据。

1.4 哈希表的缺点

  • 哈希冲突:当多个键映射到相同的索引位置时,会产生哈希冲突,必须采用冲突解决策略来避免影响性能。
  • 不保证顺序:哈希表的元素没有固定顺序,如果需要按插入顺序访问元素,可能需要额外的数据结构支持。
  • 内存消耗:虽然哈希表具有较高的空间效率,但在某些实现中可能需要较多的内存,尤其是在哈希表扩容时。

 

2. 哈希表的工作原理

哈希表的高效性主要得益于哈希函数和哈希冲突的处理方式。了解哈希表的工作原理,有助于更好地理解其优势与应用场景。我们将从 哈希函数哈希冲突 两个方面来详细探讨哈希表的工作原理。


2.1 哈希函数:如何通过键计算哈希值

哈希函数是哈希表的核心,它的作用是将给定的键(key)转换为一个数组索引,这个索引决定了该键对应值(value)在哈希表中的存储位置。哈希函数的设计直接影响哈希表的性能和效率。

2.1.1 哈希函数的基本功能

哈希函数的基本功能是将一个输入的键(无论它是整数、字符串还是其他类型)映射到一个整数值(即哈希值)。然后,哈希值会被映射到哈希表的索引上。

通常,哈希表的大小是有限的(比如数组的长度),所以哈希函数的输出值会通过取模操作(%)映射到数组的有效索引范围内。例如,对于大小为 N 的哈希表,如果哈希函数返回的哈希值是 h(key),那么最终的索引是:

index=h(key)%Nindex = h(key) \% N

2.1.2 哈希函数的理想特性

一个好的哈希函数应该具备以下特点:

  • 快速计算:哈希函数应该能够快速计算出哈希值,以保证哈希表操作的高效性。
  • 均匀分布:哈希函数应能使不同的键尽量均匀地分布到哈希表的所有桶(数组索引)上,避免将多个键映射到相同的索引。
  • 低碰撞率:碰撞(hash collision)是指不同的键映射到同一个哈希值。理想的哈希函数应该使得碰撞的可能性尽可能小。
  • 确定性:同样的键每次调用哈希函数时应该得到相同的哈希值。
2.1.3 常见的哈希函数
  • 加法哈希法:通过将键的每个字节加起来,得到哈希值。
  • 乘法哈希法:通过乘法和取整方法,将键映射到一个范围内。
  • 位运算哈希法:通过对键进行位运算(例如异或、旋转等)生成哈希值。
  • MD5、SHA-1:这些是基于加密的哈希函数,通常用于生成较长的哈希值,适用于需要更高安全性的应用。

2.2 什么是哈希冲突(Hash Collision)?

哈希冲突是指多个不同的键(key),通过哈希函数计算后,得到相同的哈希值,然后映射到哈希表的同一个索引位置。由于哈希表的容量是有限的,而键的空间通常是无限的(例如,字符串的字符数可以是任意的),间隙冲突几乎是不可避免的。

例如,假设我们有两个不同的键"apple""orange",它们的哈希值通过哈希函数计算后,得到的结果是相同的。此时,它们都会被映射到哈希表的同一个索引上,造成冲突。

2.2.1 哈希冲突的介绍

哈希冲突(Hash Collision)是指不同的键通过哈希函数计算后,得到相同的哈希值,映射到哈希表的相同位置。因为哈希表的桶是有限的(数组长度有限),而键的集合可能是无限的,所以哈希冲突在哈希表中是不可避免的。

2.2.2 哈希冲突的原因

哈希冲突的发生有以下几个原因:

  • 有限的桶数:哈希表中的桶数量是有限的,而哈希表要存储的键可能是无限的。因此,当多个键经过哈希函数处理后,得到相同的哈希值时,它们就会发生冲突。
  • 哈希函数设计不佳:如果哈希函数设计不够好,不能均匀地分布键值,或者不能有效减少哈希值的重复,那么冲突就会频繁发生。
  • 键空间过大:即使是一个好的哈希函数,在键空间很大的情况下,也难以避免冲突。

2.2.3 解决冲突的策略

为了处理分布式冲突,分布式表采用了几种常见的冲突解决策略,其中最常见的有以下两种:

  • 链表法(Separate Chaining)
  • 开放地址法(Open Addressing)
2.2.3.1链表法(分离链)

链表法通过在每个哈希表的桶(bucket)中存储一个链表或其他数据结构来解决冲突。每当多个键发生哈希冲突时,它们就会被存储在同一个桶内的链表中。

  • 工作原理:每个存储桶不仅有单一存储的键值对,还有存储一个链表或其他数据结构(如平衡树)。当发生冲突时,新的键值对会被插入到该存储桶对应链表的组成。查找操作时,通过遍历该链表来找到目标键值对。

  • 优点

    • 简单易实现,易于扩展。
    • 在负载因子较低时,能够保持较好的性能。
  • 缺点

    • 在哈希冲突严重的情况下,链表可能会退化为线性结构,查找时间复杂度可能会退化为O(n)。
    • 每个都桶需要额外的空间来存储链表头节点等顶部,增加了存储的仓储量。
  • 适用场景:适合负载均衡、冲突热点的情况,特别是在带宽表的容量动态调整时。

2.2.3.2 开放地址法(Open Addressing)

开放地址法是另一种常见的冲突解决策略,它并不使用额外的链表,而是将发生冲突的元素存储在哈希表中的其他位置。当发生冲突时,哈希表会探测空闲位置并将元素插入。

常见的开放地址法有三种:

  • 线性探测(Linear Probing):当发生冲突时,按照线性顺序探测下一个位置,直到找到空位置。

  • 二次探测(Quadratic Probing):与线性探测类似,但采用平方的方式来计算步长,减少连续碰撞的概率。

  • 双重哈希(Double Hashing):使用第二个哈希函数来计算新的探测位置,从而避免集中冲突。

  • 优点

    • 不需要额外的内存空间。
    • 更加紧凑,适合内存有限的场景。
  • 缺点

    • 查找和插入可能比较复杂,尤其在表中有大量冲突时。
    • 插入操作可能导致性能退化。

示例

假设我们有一个大小为 4 的哈希表,当哈希函数计算后返回的哈希值为 2,但索引 2 已被占用。我们使用线性探测的方法,尝试检查 3、0、1 索引,直到找到一个空位置。

索引键值对
0[]
1[]
2("apple", value1)
3("banana", value2)
2.2.3.3 线性探测(Linear Probing)
  • 原理:线性探测是一种简单的开放地址法冲突解决策略。当一个位置已经被占用时,线性探测会逐步检查下一个位置,直到找到一个空位置状态。假设初始位置为h(k),冲突发生时,线性探测下一个位置为h(k) + 1,再发生冲突时下一个位置为h(k) + 2,依此类推。

    新位置=(时长(钾)+我)米od  否\text{新位置} = (h(k) + i) \mod N新位置=(小时(公里)+我)模式否

    其中,i是探测次数,N是哈希表的大小。

  • 优点

    • 实现简单,容易理解。
    • 查找时只需要一次线性扫描即可找到空位。
  • 缺点

    • 当集群表负载占比较高时,性能会急剧下降,导致“聚集现象”(即连续的冲突)。
    • 哈希表可能缩短成一个线性阵列,查找性能变差。
2.2.3.4 二次探测(Quadratic Probing)
  • 原理:二次探测在发生冲突时采用二次函数来计算下一个探测位置。即第一次冲突后,位置是h(k) + 1^2,第二次是h(k) + 2^2,第三次是h(k) + 3^2,依此类推。探测公式为:

    新位置=(时长(钾)+我2)米od  否\text{新位置} = (h(k) + i^2) \mod N新位置=(小时(公里)+我2)模式否

    其中,i是探测次数。

  • 优点

    • 比线性探测的性能要好,因为它减少了探测位置的聚集。
  • 缺点

    • 如果负载比例过高,则探测数量也会增加。
    • 可能有些位置永远达不到,导致某些元素无法插入或查找。
2.2.3.4 双重哈希(Double Hashing)
  • 原理:双重哈希是一种基于两个哈希函数的开放地址法。第一个哈希函数计算初始索引,第二个哈希函数用于计算步长。当发生冲突时,通过第二个哈希函数个哈希函数计算新的探测步长,然后根据步长跳转到下一个位置。公式如下:

    新位置=(时长1(钾)+我×时长2(钾))米od  否\text{新位置} = (h_1(k) + i \times h_2(k)) \mod N新位置=(小时1​(千)+我×时长2​(千))模式否

    其中,h_1(k)h_2(k)是两个哈希函数。

  • 优点

    • 性能比线性探测和二次探测更好,能够避免聚集现象。
  • 缺点

    • 需要额外的计算来使用两个哈希函数。

 

 


 

3. 常见的哈希表实现

在 Java 中,哈希表有几种常见的实现,包括 HashMapHashtableConcurrentHashMapLinkedHashMap。它们都实现了 Map 接口,但在多线程支持、性能、顺序存储等方面有所不同。理解它们之间的异同,有助于根据不同的应用场景选择合适的哈希表实现。

3.1  HashMap

HashMap 是 Java 中最常用的哈希表实现类,它基于哈希表的数据结构,允许使用 null 值和 null 键。

  • 线程安全HashMap非线程安全的,即它不能在多个线程之间共享。如果多个线程并发访问 HashMap,且至少有一个线程修改了哈希表的结构,可能会导致数据不一致。因此,HashMap 不适用于多线程并发修改的场景。
  • 性能HashMap 提供了常数时间的查找、插入和删除操作(在没有哈希冲突的情况下),其平均时间复杂度为 O(1)。
  • 空值支持HashMap 允许键和值都为 null
  • 插入顺序HashMap 不保证插入顺序,也就是说,迭代 HashMap 时,键值对的顺序是不可预测的。

适用场景

  • 在单线程环境或多线程环境中只有读操作的场景。
  • 当不需要保证元素的顺序时,或者顺序不是特别重要时。

3.2 Hashtable

Hashtable 是 Java 的旧版哈希表实现,最早是在 JDK 1.0 中引入的。它与 HashMap 的实现相似,但它是线程安全的。

  • 线程安全Hashtable线程安全的,它使用 synchronized 关键字来确保多线程环境中的同步。这意味着,多个线程可以安全地访问 Hashtable 中的数据,但同步操作会带来一定的性能开销。
  • 性能:由于采用了同步机制,Hashtable 在并发环境中可能会导致性能下降,因为每次访问和修改都需要锁定整个对象。
  • 空值支持Hashtable 不允许键和值为 null,试图使用 null 作为键或值将抛出 NullPointerException
  • 插入顺序Hashtable 也不保证插入顺序。

适用场景

  • 当需要线程安全的哈希表,但没有进一步优化要求时。
  • 在老旧的系统中,可能仍会使用 Hashtable

注意Hashtable 由于性能问题,已经被 ConcurrentHashMapHashMap 取代,在现代 Java 开发中很少使用。

3.3  ConcurrentHashMap

ConcurrentHashMap 是线程安全的哈希表实现,属于 Java 5 中引入的并发包(java.util.concurrent)的一部分。它针对高并发场景进行了优化。

  • 线程安全ConcurrentHashMap 是线程安全的,但与 Hashtable 不同,它通过分段锁机制(Segment)来实现高效的并发操作。每个分段(Segment)都可以独立加锁,这样多个线程可以并行地操作不同的分段,提高了并发性能。它不对整个哈希表加锁,而是通过锁定分段来保证线程安全,因此比 Hashtable 更高效。
  • 性能:由于分段锁机制,ConcurrentHashMap 可以在高并发环境中提供比 Hashtable 更好的性能。大多数读操作可以并发执行,写操作则会被限制在某个分段内进行。
  • 空值支持ConcurrentHashMap 不允许键或值为 null,尝试使用 null 键或值时会抛出 NullPointerException
  • 插入顺序ConcurrentHashMap 不保证插入顺序。

适用场景

  • 在多线程并发访问的环境下,需要线程安全且高效的哈希表。
  • 当需要进行大量并发读写操作时,比 Hashtable 性能更优。

3.4  LinkedHashMap

LinkedHashMapHashMap 的一个子类,它不仅基于哈希表存储元素,还维护了元素的插入顺序(或访问顺序)。这使得 LinkedHashMap 适用于需要保持元素顺序的场景。

  • 线程安全LinkedHashMap 也是非线程安全的。如果需要在多线程环境下使用 LinkedHashMap,需要额外的同步机制。
  • 性能LinkedHashMap 的性能与 HashMap 相似,通常也是 O(1) 时间复杂度。由于它维护了一个双向链表来记录元素的插入顺序或访问顺序,因此其空间复杂度略高于 HashMap
  • 插入顺序LinkedHashMap 保证了元素的插入顺序。也可以通过构造函数将其配置为根据访问顺序来排序,适用于实现LRU(最近最少使用)缓存。
  • 空值支持:与 HashMap 相同,LinkedHashMap 允许 null 键和值。

适用场景

  • 当需要在哈希表中维护元素的插入顺序或访问顺序时。
  • 适用于实现缓存、最近最少使用(LRU)算法等场景。

3.5 各种实现的异同与适用场景总结

特性HashMapHashtableConcurrentHashMapLinkedHashMap
线程安全非线程安全线程安全(通过synchronized线程安全(分段锁机制)非线程安全
是否允许 null 键值允许 null 键值不允许 null 键值不允许 null 键值允许 null 键值
插入顺序不保证插入顺序不保证插入顺序不保证插入顺序保证插入顺序或访问顺序
性能高效(非线程安全)性能差(synchronized高效(分段锁提高并发性)高效(相对 HashMap,额外维护顺序)
适用场景单线程或少量并发读写需要线程安全的简单场景高并发环境下的线程安全操作需要顺序控制的场景(如缓存)
  • HashMap:适合单线程应用或需要快速查找但不关心元素顺序的场景。如果线程安全不重要,它是最快且最常用的选择。
  • Hashtable:老旧的线程安全实现,不推荐在新项目中使用。可以考虑用 ConcurrentHashMap 来替代。
  • ConcurrentHashMap:当你需要在高并发环境中安全地访问哈希表时,它是最优的选择。通过分段锁机制,确保多个线程同时访问哈希表时,性能不会受到严重影响。
  • LinkedHashMap:在需要按照插入顺序或访问顺序遍历元素的场景中,LinkedHashMap 是一个理想的选择,例如缓存实现(LRU)等。

4 哈希表的核心原理

哈希表(Hash Table)是通过哈希函数将键(key)映射到哈希表的存储位置(索引)。它的核心原理是利用哈希函数来计算每个键的哈希值,然后将键值对存储到计算出的数组索引位置。通过哈希函数,哈希表能够实现快速的查找、插入和删除操作,平均时间复杂度为 O(1)。

为了确保哈希表的高效性,哈希函数的设计至关重要。一个理想的哈希函数能够减少哈希冲突,并且确保键的均匀分布。下面我们将深入探讨哈希函数的作用与重要性,以及理想哈希函数的特点。


4.1  哈希函数的作用与重要性

哈希函数是哈希表的核心。它将输入的**键(key)**映射到一个固定长度的整数值,这个整数值用于确定键值对在哈希表中的存储位置。哈希函数的质量直接影响哈希表的性能。

4.1.1 哈希函数的作用

  • 映射键到索引:哈希函数的主要作用是通过对输入键进行计算,将其映射到一个特定的数组索引位置。这个索引是哈希表内部数组的下标,用来存储值(value)。通过这种映射方式,哈希表能在常数时间内找到对应的值。

    例如,如果哈希表大小为 N,哈希函数 h(key) 会计算出一个值,然后通过取模操作将其映射到数组的索引上:

    index=h(key)mod  N\text{index} = h(key) \mod N

    这个索引值就是键在哈希表中的位置。

  • 减少哈希冲突:哈希函数的设计必须避免多个不同的键映射到相同的数组位置(即哈希冲突)。尽管哈希函数不可能避免所有的冲突(因为键的空间通常大于哈希表的大小),但一个好的哈希函数会将键均匀分布到哈希表的各个位置,从而减少冲突的概率。

  • 提高操作效率:哈希函数影响哈希表的操作效率。一个设计良好的哈希函数能有效地将元素分布到哈希表的不同位置,从而避免哈希冲突的聚集,提高查找、插入和删除的效率。

4.1.2 哈希函数的重要性

哈希函数的重要性体现在以下几个方面:

  • 性能优化:哈希表操作的时间复杂度在理想情况下为 O(1),这一点依赖于哈希函数的均匀分布能力。如果哈希函数不均匀或设计不佳,哈希表的性能可能会大幅下降,最坏情况下可能达到 O(n)。
  • 负载因子控制:哈希函数影响哈希表的负载因子(表中存储的元素数量与表的总容量之比)。负载因子过高时,冲突增多,查找和插入操作的效率降低。设计良好的哈希函数有助于保持哈希表的负载因子适中。

4.2. 理想哈希函数的特点

一个理想的哈希函数不仅能够正确地计算哈希值,而且在设计时需要满足以下几个关键特点:

4.2.1 均匀分布

哈希函数的目标是将不同的键均匀地分布到哈希表的各个桶中,避免大量键聚集在同一个桶中,从而减少哈希冲突的概率。

  • 理想情况:如果哈希函数能够保证每个键值在哈希表中的分布是均匀的,那么查找、插入和删除操作的时间复杂度就能够保持在 O(1)。
  • 避免聚集:如果哈希函数将多个键映射到相同的位置,造成哈希冲突,哈希表的性能会大大下降。理想的哈希函数应该使得不同的键映射到不同的桶,减少冲突。

4.2.2 快速计算

哈希函数需要在常数时间内计算出哈希值。哈希表的高效性依赖于哈希函数的计算速度,因此一个理想的哈希函数应当是高效的,并且在哈希表操作(插入、查找、删除)中不会成为性能瓶颈。

  • 时间复杂度 O(1):哈希函数应该尽量简单,避免复杂的计算,以确保其时间复杂度为 O(1),即无论输入的键有多复杂,计算哈希值的时间都是常数级别。

4.2.3 确定性

哈希函数对于相同的输入键,应该始终返回相同的哈希值。哈希函数的确定性确保了每次查找或插入操作都能够可靠地计算出键的位置。

  • 一致性:如果给定一个特定的键,哈希函数应始终计算出相同的哈希值。这对于数据存储和查找是至关重要的,因为哈希表依赖于一致的哈希值来确定存储位置。

4.2.4 低碰撞率

碰撞是指两个不同的键经过哈希函数计算后,映射到了相同的位置。尽管碰撞是不可避免的,但一个理想的哈希函数应尽可能减少碰撞的发生。碰撞会导致哈希表的性能下降,因此理想的哈希函数应能有效地分散键的哈希值,降低碰撞的频率。

  • 良好的碰撞处理机制:理想的哈希函数虽然不能完全消除碰撞,但应能够使得发生碰撞的概率尽可能小。通常,哈希函数通过在设计时尽量分散不同键的哈希值来减少碰撞。

4.2.5 哈希值的长度适中

哈希值的长度应适中,既要能够确保哈希表中每个位置都有足够的可用空间,也不能过于复杂。通常,哈希值的长度是固定的,且与哈希表的大小相关,过长的哈希值会导致内存浪费。

  • 哈希值大小:哈希表的大小应与哈希值的长度成比例。如果哈希值过长,虽然理论上可以降低碰撞的概率,但会增加存储空间和计算开销。如果哈希值过短,则可能导致过多的碰撞,降低效率。

4.3. 常见的哈希函数设计

  1. 除法法(Modular Hashing) 除法法是最简单的哈希函数设计方法,通过将键值除以哈希表大小来计算哈希值。其公式为:

  2. h(key)=keymod  Nh(key) = key \mod N

    其中,key 是输入的键,N 是哈希表的大小。该方法简单快速,但如果哈希表的大小是某些值的倍数(如 2 的幂),可能会导致较高的碰撞率。

  3. 乘法法(Multiplicative Hashing) 乘法法通过对键进行乘法和取整来计算哈希值。常见的实现是使用一个常数 A,计算公式为:

    h(key)=⌊N×(key×Amod  1)⌋h(key) = \lfloor N \times (key \times A \mod 1) \rfloor

    其中,A 是一个常数,通常选择一个在 (0, 1) 区间的实数。乘法法能够减少碰撞,并且对于较大的键空间更为有效。

  4. 加法哈希法(Summing Hashing) 加法哈希法将键的每个字节加起来,得到哈希值。这个方法虽然简单,但通常不能保证较好的分布,容易导致大量的碰撞。

  5. BKDR Hash BKDR Hash 是一种广泛使用的字符串哈希函数,计算方法为:

    h(key)=∑i=0n−1(key[i]×seedi)h(key) = \sum_{i=0}^{n-1} (key[i] \times seed^{i})

    其中,key[i] 是字符串的第 i 个字符,seed 是一个常数。这个方法能有效地减少碰撞,特别适用于字符串键。



4.4 负载因子与扩容

4.4.1 负载因子概念

负载因子(Load Factor)是哈希表中已存储元素数量与哈希表容量的比值,表示哈希表的“满度”。负载因子的值构成,表示哈希表的桶越拥挤,发生哈希冲突的概率极大。负载因子的公式为:

负载因子=当前数据个数哈希表大小\text{负载因子} = \frac{\text{当前元素个数}}{\text{哈希表大小}}负载因子=哈希表大小当前数据个数​

通常,负载因子控制着缓存表的性能。负载因子过高时,冲突增加,查找和插入的性能下降;负载因子过低时,缓存表的空间浪费增大,导致内存资源的浪费。

4.4.2 哈希表扩容机制

为了保持哈希表的高效性,当负载因子超过某个默认阈值时,哈希表通常会执行扩容操作。扩容通常意味着将哈希表的大小加倍,并重新计算所有元素的位置。的核心目的是减少哈希冲突,提高插入、删除的效率。

扩容的步骤一般如下:

  1. 创建一个更大的分区表,通常是当前容量的两倍。
  2. 重新计算原有哈希表中的每个键的哈希值,并将它们插入到新的哈希表中。

扩容的代价极大,因为在扩容过程中,所有的键值对都需要重新计算哈希值并迁移迁移到新的分区表中。因此,扩容表的扩容应该在负载因子达到阈值时进行,通常该阈值设置为0.75。

4. 哈希表的操作

哈希表(Hash Table)是一种通过哈希函数将键映射到磁盘索引的结构,以提供快速的插入、查找和删除操作。常见的哈希表操作包括插入、查找和删除。以下是详细信息解释了这些操作的过程以及如何处理缓存冲突。


1. 插入操作

如何根据键插入值:

  • 计算哈希值:给定一个键(key),通过哈希函数计算出一个哈希值,该哈希值对应集群的索引位置。哈希函数通常是通过对键执行某种数学操作(如取)模等)来生成备份下标。

    指数=哈希(钾埃是)米od  数组大小\text{索引} = \text{哈希}(键) \mod \text{数组大小}指数=哈希(键)​模式数组大小
  • 插入值:根据计算出的索引,将对应的存储值存储在哈希表的该位置。如果该位置为空,就直接存储值。如果该位置已经有数据(哈希冲突),则需要使用冲突解决方法。

  • 冲突处理

    1. 链式法(Separate Chaining):每个桶(吞吐量元素)组成一个链表,所有具有相同哈希值的元素都会被插入到这个链表中。每个链表中的节点都包含一个键值对。

    2. 开放地址法(Open Addressing):如果发生冲突,哈希表会通过特定的方法寻找其他空位置来存储值。常见的开放地址法有线性探测、二次探测和双重哈希等。


2.查找操作

如何根据按键找到对应的值:

  • 计算哈希值:给定一个键,首先通过哈希函数计算出它的哈希值。

  • 查找值

    • 根据计算出的哈希值定位到哈希表的一个位置。
    • 如果该位置没有发生冲突,则直接返回存储的值。
    • 如果该位置发生冲突(例如,链表中存在多个元素或开放地址法中当前位置已被占用),则需要根据冲突解决方法继续查找。
  • 冲突处理

    • 链式法:如果哈希表的某个位置是链表,则查找链表找到相应的键值对。
    • 开放查找法:根据线性探测、二次探测等策略,在哈希表中继续查找下一个可能的存储位置,直到目标元素或者确定元素不存在。

3.删除操作

如何删除键值对:

  • 计算哈希值:首先通过哈希函数计算出给定键的哈希值。

  • 删除值

    • 如果该位置没有发生冲突,直接删除该键值对。
    • 如果发生冲突(例如在链表中是链表,或在开放地址法中是其他位置),需要查找链表或使用冲突解决方法来查找并删除对应的键值对。
  • 冲突处理

    • 链式法:删除链表中对应的节点。
    • 开放地址法:删除该键值对,并且需要重新检查由该位置引起的冲突链,保证删除后的哈希表仍然能够正常工作。

4. 常见操作的时间复杂度分析

理想情况下的时间复杂度:O
(1) 在理想情况下,即哈希函数能够均匀分配哈希值,且冲突很少时,插入、查找和删除操作的时间复杂度均为O(1)这意味着无论数据量有多大,操作所需的时间都不会随着数据量的增加而显着增加。

  • 插入:根据哈希值找到目标位置,直接插入。
  • 查找:根据哈希值找到目标位置,直接查找。
  • 删除:根据哈希值找到目标位置,直接删除。

最坏情况下的时间复杂度:O(n),
当哈希函数不均匀、冲突严重时,所有元素可能会聚集到同一个位置,导致查询变得相似链表查找。此时,哈希表的操作时间复杂度为O(n),其中n是哈希表中的元素个数。


2.查找操作

如何根据按键找到对应的值:


3.删除操作

如何删除键值对:


4. 常见操作的时间复杂度分析

理想情况下的时间复杂度:O
(1) 在理想情况下,即哈希函数能够均匀分配哈希值,且冲突很少时,插入、查找和删除操作的时间复杂度均为O(1)这意味着无论数据量有多大,操作所需的时间都不会随着数据量的增加而显着增加。

最坏情况下的时间复杂度:O(n),
当哈希函数不均匀、冲突严重时,所有元素可能会聚集到同一个位置,导致查询变得相似链表查找。此时,哈希表的操作时间复杂度为O(n),其中n是哈希表中的元素个数。


5.2.查找操作

如何根据按键找到对应的值:


5.3.删除操作

如何删除键值对:


5.4. 常见操作的时间复杂度分析

理想情况下的时间复杂度:O
(1) 在理想情况下,即哈希函数能够均匀分配哈希值,且冲突很少时,插入、查找和删除操作的时间复杂度均为O(1)这意味着无论数据量有多大,操作所需的时间都不会随着数据量的增加而显着增加。

最坏情况下的时间复杂度:O(n),
当哈希函数不均匀、冲突严重时,所有元素可能会聚集到同一个位置,导致查询变得相似链表查找。此时,哈希表的操作时间复杂度为O(n),其中n是哈希表中的元素个数。

  • 链式法中,所有冲突的元素都会形成链表,最坏的情况下,所有元素都可能集中到一个链表中,因此查找、插入和删除的时间复杂度为O(n)。

  • 开放地址法中,哈希表可能需要进行线性探测或者其他探测方法来寻找空位,这也可能导致最坏的时间复杂度为O(n)的情况。

    4. 哈希表的操作

    哈希表(Hash Table)是一种通过哈希函数将键映射到磁盘索引的结构,以提供快速的插入、查找和删除操作。常见的哈希表操作包括插入、查找和删除。以下是详细信息解释了这些操作的过程以及如何处理缓存冲突。


    1. 插入操作

    如何根据键插入值:

  • 计算哈希值:给定一个键(key),通过哈希函数计算出一个哈希值,该哈希值对应集群的索引位置。哈希函数通常是通过对键执行某种数学操作(如取)模等)来生成备份下标。

    指数=哈希(钾埃是)米od  数组大小\text{索引} = \text{哈希}(键) \mod \text{数组大小}指数=哈希(键)​模式数组大小
  • 插入值:根据计算出的索引,将对应的存储值存储在哈希表的该位置。如果该位置为空,就直接存储值。如果该位置已经有数据(哈希冲突),则需要使用冲突解决方法。

  • 冲突处理

    1. 链式法(Separate Chaining):每个桶(吞吐量元素)组成一个链表,所有具有相同哈希值的元素都会被插入到这个链表中。每个链表中的节点都包含一个键值对。

    2. 开放地址法(Open Addressing):如果发生冲突,哈希表会通过特定的方法寻找其他空位置来存储值。常见的开放地址法有线性探测、二次探测和双重哈希等。

  • 计算哈希值:给定一个键,首先通过哈希函数计算出它的哈希值。

  • 查找值

    • 根据计算出的哈希值定位到哈希表的一个位置。
    • 如果该位置没有发生冲突,则直接返回存储的值。
    • 如果该位置发生冲突(例如,链表中存在多个元素或开放地址法中当前位置已被占用),则需要根据冲突解决方法继续查找。
  • 冲突处理

    • 链式法:如果哈希表的某个位置是链表,则查找链表找到相应的键值对。
    • 开放查找法:根据线性探测、二次探测等策略,在哈希表中继续查找下一个可能的存储位置,直到目标元素或者确定元素不存在。
  • 计算哈希值:首先通过哈希函数计算出给定键的哈希值。

  • 删除值

    • 如果该位置没有发生冲突,直接删除该键值对。
    • 如果发生冲突(例如在链表中是链表,或在开放地址法中是其他位置),需要查找链表或使用冲突解决方法来查找并删除对应的键值对。
  • 插入:根据哈希值找到目标位置,直接插入。
  • 查找:根据哈希值找到目标位置,直接查找。
  • 删除:根据哈希值找到目标位置,直接删除。
  • 链式法中,所有冲突的元素都会形成链表,最坏的情况下,所有元素都可能集中到一个链表中,因此查找、插入和删除的时间复杂度为O(n)。

  • 开放地址法中,哈希表可能需要进行线性探测或者其他探测方法来寻找空位,这也可能导致最坏的时间复杂度为O(n)的情况。

    5. 哈希表的操作

    哈希表(Hash Table)是一种通过哈希函数将键映射到磁盘索引的结构,以提供快速的插入、查找和删除操作。常见的哈希表操作包括插入、查找和删除。以下是详细信息解释了这些操作的过程以及如何处理缓存冲突。


    5.1. 插入操作

    如何根据键插入值:

  • 计算哈希值:给定一个键(key),通过哈希函数计算出一个哈希值,该哈希值对应集群的索引位置。哈希函数通常是通过对键执行某种数学操作(如取)模等)来生成备份下标。

    指数=哈希(钾埃是)米od  数组大小\text{索引} = \text{哈希}(键) \mod \text{数组大小}指数=哈希(键)​模式数组大小
  • 插入值:根据计算出的索引,将对应的存储值存储在哈希表的该位置。如果该位置为空,就直接存储值。如果该位置已经有数据(哈希冲突),则需要使用冲突解决方法。

  • 冲突处理

    1. 链式法(Separate Chaining):每个桶(吞吐量元素)组成一个链表,所有具有相同哈希值的元素都会被插入到这个链表中。每个链表中的节点都包含一个键值对。

    2. 开放地址法(Open Addressing):如果发生冲突,哈希表会通过特定的方法寻找其他空位置来存储值。常见的开放地址法有线性探测、二次探测和双重哈希等。

  • 计算哈希值:给定一个键,首先通过哈希函数计算出它的哈希值。

  • 查找值

    • 根据计算出的哈希值定位到哈希表的一个位置。
    • 如果该位置没有发生冲突,则直接返回存储的值。
    • 如果该位置发生冲突(例如,链表中存在多个元素或开放地址法中当前位置已被占用),则需要根据冲突解决方法继续查找。
  • 冲突处理

    • 链式法:如果哈希表的某个位置是链表,则查找链表找到相应的键值对。
    • 开放查找法:根据线性探测、二次探测等策略,在哈希表中继续查找下一个可能的存储位置,直到目标元素或者确定元素不存在。
  • 计算哈希值:首先通过哈希函数计算出给定键的哈希值。

  • 删除值

    • 如果该位置没有发生冲突,直接删除该键值对。
    • 如果发生冲突(例如在链表中是链表,或在开放地址法中是其他位置),需要查找链表或使用冲突解决方法来查找并删除对应的键值对。
  • 插入:根据哈希值找到目标位置,直接插入。
  • 查找:根据哈希值找到目标位置,直接查找。
  • 删除:根据哈希值找到目标位置,直接删除。
  • 链式法中,所有冲突的元素都会形成链表,最坏的情况下,所有元素都可能集中到一个链表中,因此查找、插入和删除的时间复杂度为O(n)。

  • 开放地址法中,哈希表可能需要进行线性探测或者其他探测方法来寻找空位,这也可能导致最坏的时间复杂度为O(n)的情况。

  • 冲突处理

    • 链式法:删除链表中对应的节点。
    • 开放地址法:删除该键值对,并且需要重新检查由该位置引起的冲突链,保证删除后的哈希表仍然能够正常工作。
  • 冲突处理

    • 链式法:删除链表中对应的节点。
    • 开放地址法:删除该键值对,并且需要重新检查由该位置引起的冲突链,保证删除后的哈希表仍然能够正常工作。

结语

哈希表是一种高效的数据结构,广泛评估各种算法和程序设计中,特别是在需要快速查找、插入和删除操作的场景中。通过哈希函数将键映射到磁盘索引中,哈希表在理想情况下可以实现 O(1) 的时间复杂度。然而,哈希表的性能在实际使用中可能会受到缓存冲突的影响,因此需要合理的冲突解决策略,如链式法和开放地址法。

虽然哈希表在常见的操作(插入、删除、删除)中能够提供很高的效率,但它并不适用于所有情况。例如,在按键的分配不均匀时,哈希表可能会损坏为链表,从而影响性能。因此,选择合适的缓存函数和冲突解决策略非常关键。

通过理解哈希表的工作原理以及常见操作的时间复杂度,我们可以更好地在实际编程中使用哈希表,解决各种实际问题。总之,哈希表是一种强大且高效的数据结构,但其应用效果依赖于良好的设计和合理的冲突管理。


http://www.kler.cn/a/453859.html

相关文章:

  • 从百度云网盘下载数据到矩池云网盘或者服务器内
  • 【089】基于51单片机环境监测系统【Proteus仿真+Keil程序+报告+原理图】
  • Linux axel 下载加速命令详解
  • Unity中UGUI的Button动态绑定引用问题
  • YashanDB 23.2 YAC -单库多实例架构多活共享集群安装部署指南
  • 音视频入门基础:AAC专题(13)——FFmpeg源码中,获取ADTS格式的AAC裸流音频信息的实现
  • 深入理解 MySQL 架构
  • (七)循环神经网络_LSTM长短期记忆网络
  • STM32单片机芯片与内部45 UART 不定长度接收 标志位结束 定时器超时 串口空闲中断
  • 【有作图代码】KL散度与自由能F:高斯分布下的“距离度量”与“能量计算”
  • 自定义 Celery的logging模块
  • asp.net 高校学生勤工俭学系统设计与实现
  • 【Emscripten执行遇到】emcc command not found
  • 如何通过 Kafka 将数据导入 Elasticsearch
  • Node.js 助力前端开发:自动化操作实战
  • 【数据结构与算法】数据结构与算法的基本概念
  • Ubuntu安装Apache Airflow详细指南
  • 汽车配套行业的软件许可证资源管理实践与技术解析
  • MySQL数据库(基础篇)
  • bash 中 ${-#*i} 是什么意思?
  • Java基于SSM框架的无中介租房系统小程序【附源码、文档】
  • 【C语言】判断是不是闰年
  • 遇到duilib.dll丢失怎么办?解决duilib.dll文件丢失问题的全面指南
  • 07.string类
  • AppAgent 源码 (self_explore.py)
  • 访谈积鼎科技总经理:国产CFD软件发展与未来趋势展望