【C++】——精细化哈希表架构:理论与实践的综合分析
先找出你的能力在哪里,然后再决定你是谁。
—— 塔拉·韦斯特弗 《你当像鸟飞往你的山》
目录
1. C++ 与哈希表:核心概念与引入
2. 哈希表的底层机制:原理与挑战
2.1 核心功能解析:效率与灵活性的平衡
2.2 哈希冲突的本质:问题与应对策略
2.3 开散列与闭散列:两大解决方案的比较
3. 闭散列的精确实现:从设计到优化
3.1 整体框架设计:面向扩展的架构
3.2 仿函数的灵活性:高效哈希的关键
3.3 插入操作:冲突检测与位置分配
3.4 查找操作:速度与准确的双重保障
3.5 删除操作:标记与重构的细节优化
4. 开散列的灵活实现:从基础到高效
4.1 节点设计:指针与数据的平衡艺术
4.2 整体框架搭建:链表与逻辑的融合
4.3 插入函数:链表拓展与哈希分布
4.4 删除函数:节点清理与空间复用
4.5 查找操作:定位效率的优化实践
4.6 功能测试:多场景验证与性能分析
1、C++ 与哈希表:核心概念与引入
哈希表(Hash Table)是一种重要的数据结构,它通过哈希函数将键映射到表中的特定位置,从而实现对记录的快速访问,支持高效的插入和查找操作。
哈希表的概念最早由H. P. Luhn于1953年提出,他首次描述了利用哈希函数加速数据检索的过程。自此,这一思想逐步演化并广泛应用于数据库管理系统和编程语言中,成为计算机科学领域的重要基础之一。
随着计算机硬件性能的提升和数据量的爆炸性增长,哈希表的作用愈发凸显。作为一种高效的数据结构,哈希表在软件工程、数据库系统、网络搜索引擎等领域扮演着不可或缺的角色,尤其在处理大规模数据和高频率查询时展现出卓越的性能优势。
在C++中,哈希表的功能主要通过unordered系列关联式容器实现。在C++98标准中,STL提供了一组底层基于红黑树的关联式容器,如map和set。这些容器在最坏情况下的查询复杂度为O(log N),即需要进行与红黑树高度成比例的比较操作。当树的节点数量庞大时,查询效率可能会受到显著影响。
为了进一步提升查询性能,C++11引入了四种unordered系列的关联式容器,包括unordered_map、unordered_set、unordered_multimap和unordered_multiset。这些容器在使用方式上与传统的红黑树关联式容器相似,但其底层实现基于哈希表。通过哈希函数的高效映射,unordered容器在平均情况下能够实现O(1)的常数级查询复杂度,极大地提高了数据访问速度,尤其适用于对查询性能要求较高的场景。
总之,哈希表及其在C++中的实现,不仅优化了数据存储与检索效率,还推动了现代软件开发在处理大规模数据时的能力边界,成为计算机科学领域中不可或缺的核心技术之一。
2、哈希表的底层机制:原理与挑战
2.1 核心功能解析:效率与灵活性的平衡
在顺序结构和平衡树中,元素的关键码与其存储位置之间并没有直接的对应关系。因此,在查找一个元素时,必须通过多次比较其关键码。在顺序查找中,时间复杂度为 O(N),而在平衡树中,查找时间复杂度为树的高度 O(log2N)),搜索效率取决于查找过程中元素比较的次数。
理想的搜索方法:可以不经过任何比较,一次直接从表中得到要搜索的元素。为此,我们可以构造一种特殊的存储结构,通过一个哈希函数(hashFunc)将元素的存储位置与其关键码(key)建立一一映射关系。在这种结构中:
- 插入元素:通过哈希函数计算待插入元素的存储位置,并将元素存储在该位置。
- 搜索元素:计算元素的关键码对应的存储位置,直接访问该位置。如果该位置的元素关键码与待查找的元素相同,则搜索成功。
2.2 哈希冲突的本质:问题与应对策略
对于两个数据元素的关键字 ,如果其下标不同,对应的元素值也不同。但哈希函数计算结果却是相同,即 Hash(ki)==Hash(kj),简单说两个不同的key可能会映射到同⼀个位置去
这种现象称为哈希冲突或哈希碰撞。
哈希冲突的发生可能是由于哈希函数的设计问题。一个好的哈希函数应该满足以下原则:
- 定义域覆盖所有关键字:哈希函数的定义域必须包含所有需要存储的关键字;如果散列表允许有 m 个地址,则哈希函数的值域应当在 0 到 m-1 之间。
- 均匀分布:哈希函数应能将关键字均匀地映射到整个地址空间中,减少冲突的概率。
- 计算简单:哈希函数应设计得尽可能简单,以提高计算效率。
然而,由于存储空间有限,哈希函数难以完全避免哈希冲突的发生。因此,发生哈希冲突时,系统需要采取适当的处理方法。通常,哈希冲突的解决方案有两种常见方法:闭散列(Open Addressing)和开散列(Chaining)。
在闭散列中,当发生冲突时,寻找一个空位将元素存储在散列表中。这通常通过线性探测、二次探测或双重散列等技术实现。
在开散列中,当发生冲突时,多个元素被存储在同一个地址位置的链表中,通常采用链表或其他数据结构来存储这些“同义词”。
在讨论哈希冲突的处理方法时,另一个重要的概念是负载因子(Load Factor)。负载因子是哈希表中元素个数与表的总容量之间的比值,通常表示为:
负载因子反映了哈希表的“密集程度”。当负载因子较高时,意味着哈希表中存储的元素接近其总容量,发生哈希冲突的概率增大;相反,负载因子较低时,哈希表中的元素较少,冲突的概率较小。
负载因子的应用与影响:
-
影响哈希冲突的概率:负载因子越大,哈希表中的元素越密集,碰撞的概率也越高。为了降低冲突发生的概率,通常在负载因子达到一定阈值时,会进行哈希表的扩容,将哈希表的容量增大,从而降低负载因子并减少冲突。
-
闭散列中的负载因子:在闭散列法中,当负载因子增大时,查找、插入等操作的时间复杂度会增加。因为哈希表的空闲位置减少,冲突发生后需要进行探测,可能导致操作变得低效。为避免这种情况,当负载因子超过一定值(通常为 0.7 或 0.75)时,会触发扩容操作,将哈希表的大小翻倍,并重新计算每个元素的哈希地址。
-
开散列中的负载因子:在开散列法中,负载因子的增大会导致链表的长度增加,进而影响查找效率。当负载因子过高时,链表变长,查找、插入和删除操作的时间复杂度会退化为线性时间 O(n)。因此,在开散列中,通常也会采取相似的策略,监控负载因子的变化,当负载因子超过某个阈值时,进行扩容或重新哈希。
2.3 开散列与闭散列:两大解决方案的比较
哈希(散列)方法是一种高效的数据存储和检索方式,其核心在于哈希函数和哈希表的构建。通过哈希函数将数据映射到数组索引上,可以快速定位元素。然而,当多个数据被映射到相同的索引(即哈希冲突)时,需要采取有效的策略进行处理。根据解决冲突的方式,哈希表分为两种类型:闭散列和开散列。
闭散列(开放定址法)
闭散列的核心思想是将冲突的元素存放到哈希表中的其他空位置。其主要实现方式是线性探测:
- 插入:通过哈希函数计算得到目标位置。如果该位置为空,则直接插入;若发生冲突,则从冲突位置开始,依次向后探测,直到找到空位置为止,再插入元素。例如,若元素44计算出的哈希地址为4,但位置4已存有元素4,则继续向后探测,找到下一个空位置存放44。
- 删除:采用伪删除标记代替物理删除,以免影响其他元素的搜索路径。例如,若直接删除元素4,则会导致后续查找44时路径断裂,因此采用标记伪删除的方法。
优点:
- 实现简单,无需额外数据结构支持。
缺点:
- 容易产生数据堆积(又称“聚集”),即多个冲突元素连续占据空位置,导致后续插入和查找的效率显著下降。
- 空间利用率较低,特别是在装载因子较高时,冲突频率增加,性能退化明显。
为缓解上述问题,可以使用二次探测法或其他改进方法优化冲突处理。
开散列(链地址法)
开散列通过为每个哈希地址维护一个链表来解决冲突:
- 插入:计算哈希地址后,将冲突元素添加到对应链表的末尾。
- 删除:直接从链表中删除目标元素,链表结构确保不会影响其他元素的查找。
优点:
- 空间利用率高,能更好地适应高装载因子。
- 冲突处理灵活,不会产生数据堆积,查找效率相对稳定。
缺点:
- 需要额外的链表存储空间。
- 链表操作增加了一定的复杂性。
演示两种方法 {19,30,5,36,13,20,21,12,24,96} 这⼀组值映射到M=11的表中,采用的哈希函数:
除法散列法也叫做除留余数法,顾名思义,假设哈希表的大小为M,那么通过key除以M的余数作为映射位置的下标,也就是哈希函数为:h(key) = key % M。
3、 闭散列的精确实现:从设计到优化
3.1 整体框架设计:面向扩展的架构
首先我们需要进行一个简单的框架搭建:
- 我们需要一个HashData类,来储存数据
- HashTable类底层是vector容器
- 因为会有不同类型的key,所以我们需要一个仿函数来将不同类型转换为size_t,这样才支持哈希函数映射
- 因为闭散列的删除不能直接删除节点,否则会导致线性探测失效,所以HashData类里需要记录状态
//版本一 --- 开放地址法(闭散列) #include #include #include using namespace std; //节点状态 enum status { EXIST, EMPTY, DELETE }; //设计节点 template struct HashData { //键值对 pair _kv; //状态 status _status; }; // kv键值,仿函数解决不同类型key转换为size_t类型的下标 template class HashTable { public: HashTable() { _table.resize(10); } private: //底层是vector容器 vector> _table; size_t _n;//有效数据个数 Hash hs;//仿函数 };
3.2 仿函数的灵活性:高效哈希的关键
仿函数的作用是将不同数据类型的key转换为可以使用的size_t类型,这样可以才能一 一映射过去
对于可以直接显示类型转换的类型直接转换即可。而对于不能直接转换的类型(比如string)就要进行特殊处理了!
template struct HashFunc { size_t operator()(const K& key) { return (size_t)key; } }; template struct HashFunc { size_t operator()(const string& s) { // BKDR size_t hash = 0; for (auto ch : s) { hash += ch; hash *= 131; } return hash; } };
3.3 插入操作:冲突检测与位置分配
- 首先插入之前要先检查是否在哈希表中已经有数据了
- 然后检查该次是否需要进行扩容
- 通过key值选取合适位置进行插入,有效个数++
bool insert(const pair&kv) { //插入前先进行一个检查 if (Find(kv.first)) return false; //是否需要扩容 if (_n >= _table.size() * 0.7) { //进行替换 HashTable newHT; newHT._table.resize(_table.size() * 2); //进行赋值 for (auto &s : _table) { if (s._status == EXIST) newHT.insert(s._kv); } //进行替换!!! _table.swap(newHT._table); } //进行插入 //hash地址 size_t hash0 = kv.first % _table.size(); size_t hashi = hash0; size_t i = 1; //寻找合适位置进行插入 // 线性探测 while (_table[hashi].status == EXIST) { hashi = (hash0 + i) % _table.size(); //取模解决回绕问题 ++i; } //找到合适位置了进行插入 _table[hashi]._kv = kv; _table[hashi].status = EXIST; _n++; return true; }
3.4 查找操作:速度与准确的双重保障
查找逻辑很简单对Key进行线性探测即可
HashData* Find(const K& key) { size_t hash0 = hs(key) % _table.size(); size_t hashi = hash0; size_t i = 1; while (_table[hashi]._state != EMPTY) { if (_table[hashi]._state == EXIST && _table[hashi]._kv.first == key) //这里需要加判断状态语句 我们删除只是该状态 { return &_table[hashi]; } // 线性探测 hashi = (hash0 + i) % _table.size(); ++i; } return nullptr; }
3.5 删除操作:标记与重构的细节优化
删除先通过key找到需要删除的数据
然后将状态设置为DELETE , 有效个数- -
//删除 bool Erase(const K& key) { //size_t hash0 = hs(key) % _tables.size(); //size_t hashi = hash0; //size_t i = 1; //while (_table[hashi]._state != EMPTY) //{ // if (_table[hashi]._state == EXIST // && _table[hashi]._kv.first == key) // { // _table[hashi].status = DELETE; // --_n; // return true; // } // // 线性探测 // hashi = (hash0 + i) % _tables.size(); // ++i; //} //return false; //复用 Find HashData* ret = Find(key); if (ret == nullptr) { return false; } else { ret->_status = DELETE; --_n; return true; } }
这里一开始的空间机制可以优化,我们使用的哈希函数是除法散列法也叫做除留余数法,当使用除法散列法时,建议M取不太接近2的整数次冥的⼀个质数(素数)。这样可以有效避免哈希冲突
优化一下:采用接近2倍扩容的素数表进行开辟空间扩容
class HashTable { public: HashTable() :_tables(__stl_next_prime(0)) , _n(0) {} inline unsigned long __stl_next_prime(unsigned long n) { // Note: assumes long is at least 32 bits. static const int __stl_num_primes = 28; static const unsigned long __stl_prime_list[__stl_num_primes] = { 53, 97, 193, 389, 769, 1543, 3079, 6151, 12289, 24593, 49157, 98317, 196613, 393241, 786433, 1572869, 3145739, 6291469, 12582917, 25165843, 50331653, 100663319, 201326611, 402653189, 805306457, 1610612741, 3221225473, 4294967291 }; const unsigned long* first = __stl_prime_list; const unsigned long* last = __stl_prime_list + __stl_num_primes; const unsigned long* pos = lower_bound(first, last, n); return pos == last ? *(last - 1) : *pos; } bool Insert(const pair& kv) { if (Find(kv.first)) return 0; //负载因子>=0.7 扩容 if (_n*10 / _tables.size() >= 7) { HashTablenewht; newht._tables.resize(__stl_next_prime(_tables.size() + 1)); for (auto& data : _tables) { // 旧表的数据映射到新表 if (data._state == EXIST) { newht.Insert(data._kv); } } _tables.swap(newht._tables); } size_t hash0 = kv.first % _tables.size(); size_t hashi = hash0; size_t i = 1; int flag = 1; while (_tables[hashi]._state == EXIST) { // 线性探测 hashi = (hash0 + i) % _tables.size(); ++i; /*hashi = (hash0 + (i*i*flag)) % _tables.size(); if (hashi _state = DELETE; return 1; } private: vector _tables; size_t _n; //标识数据个数 };
这样我们就实现了开发地址法(闭散列)的哈希表!!!
4. 开散列的灵活实现:从基础到高效
我们已经实现了闭散列版本的哈希表,今天计划实现另一种哈希表的实现方式——开散列版本(也称哈希桶)。在深入实现之前,让我们先分析所需的工作。
开散列的核心思想是将哈希表设计为一个数组,每个数组元素对应一个映射地址。为了解决哈希冲突,开散列采用链表的形式将冲突的元素链接起来,从而确保高效的查找和插入操作。
由于涉及到链表的使用,我们可以直接利用 STL 库的 list 数据结构。然而,list 本质上是一个双向循环链表,对我们这样简单的场景来说,可能显得有些复杂且不够高效。为了简化实现并节省内存空间,我们可以自行构造一个简单的单向非循环链表,完全可以满足需求,同时节省约一半的空间。
通过这一设计,我们既可以避免闭散列中可能出现的过多探测问题,又能以较低的实现成本构建一个功能完备且高效的哈希表。
4.1 节点设计:指针与数据的平衡艺术
因为我们要实现单链表结构,肯定要来先设计一下节点框架:
//节点设计 template struct HashNode { //储存的数据 pair _kv; //下一个节点的指针 HashNode* _next; HashNode(const pair& kv) :_kv(kv) , _next(nullptr) {} };
4.2 整体框架搭建:链表与逻辑的融合
设计完成节点后,就可以着手构建整体框架了。哈希桶的底层结构通常由一个指针数组构成,同时需要引入一个变量用于记录当前有效元素的个数,以便在负载因子过高时及时触发扩容操作。
实现的核心功能包括插入、删除和查找三个基本操作。需要注意的是,不同类型的数据在插入时需要通过哈希函数转换为 size_t 类型,这样才能将数据正确映射到数组中的对应位置。
在实现这些功能时,需要重点关注以下几点:
- 插入操作:根据哈希函数确定目标位置,处理可能的冲突,将新元素插入到对应链表中。
- 删除操作:查找到目标位置的链表节点并删除,同时需要妥善处理链表连接。
- 查找操作:根据哈希函数定位到目标链表,然后顺序查找目标节点。
通过上述基本功能的实现,我们可以构建一个高效的哈希桶结构,为后续功能扩展和优化打下坚实基础。
namespace hash_bucket { //仿函数 转整形 template struct HashFunc { size_t operator()(const K& key) { return (size_t)key; } }; template struct HashFunc { size_t operator()(const string& s) { // BKDR size_t hash = 0; for (auto ch : s) { hash += ch; hash *= 131; } return hash; } }; //节点设计 template struct HashNode { //储存的数据 pair _kv; //下一个节点的指针 HashNode* _next; HashNode(const pair& kv) :_kv(kv) , _next(nullptr) {} }; //开散列的哈希表 // key value 仿函数(转换为size_t) template class HashTable { typedef HashNode Node; inline unsigned long __stl_next_prime(unsigned long n) { static const int __stl_num_primes = 28; static const unsigned long __stl_prime_list[__stl_num_primes] = { 53, 97, 193, 389, 769, 1543, 3079, 6151, 12289, 24593, 49157, 98317, 196613, 393241, 786433, 1572869, 3145739, 6291469, 12582917, 25165843, 50331653, 100663319, 201326611, 402653189, 805306457, 1610612741, 3221225473, 4294967291 }; const unsigned long* first = __stl_prime_list; const unsigned long* last = __stl_prime_list + __stl_num_primes; const unsigned long* pos = lower_bound(first, last, n); return pos == last ? *(last - 1) : *pos; } public: HashTable() :_tables(__stl_next_prime(0)) ,_n(0) {} private: vector _tables; // 指针数组 //vector _tables; size_t _n = 0; // 表中存储数据个数 //struct Date //{ // list_list; // map_map; // size_t len; // len 8 存_map 红黑树 //}; //vector_tables; //size_t n = 0; }; }
4.3 插入函数:链表拓展与哈希分布
实现插入函数时,可以按照以下步骤进行:
- 检查键是否存在:在插入新元素之前,首先检查当前键是否已经存在于哈希表中,只有在键不存在时才进行插入操作。
- 检查是否需要扩容:根据当前的负载因子(有效元素数与桶容量的比值),判断是否需要扩容以保证操作的效率。
- 计算哈希值并定位映射位置:利用仿函数计算键的哈希值 hashi,从而确定其在哈希表中的映射位置。
- 创建并插入新节点:构造一个新节点,并采用头插法将其插入到对应位置的链表中。
关于扩容逻辑,需要特别注意优化实现。最直观的方法是遍历原哈希表,将数据重新插入到新的哈希表中,并释放旧节点。然而,这种方式多做了无意义的节点释放与重建操作。实际上,我们可以直接将原有的节点从旧哈希表中迁移到新哈希表中,无需释放和重新分配,既节省了时间也优化了内存使用。
bool Insert(const pair& kv) { //先查找,已经有了相同数据插入失败 if (Find(kv.first)) return 0; Hash hash; // 负载因子等于1时候 进行扩容 if (_n==_tables.size()) { //HashTablenewht; //newht._tables.resize(__stl_next_prime(_tables.size() + 1)); //for (size_t i = 0; i _kv); // cur = cur->_next; // } //} //_tables.swap(newht._tables); // // 多次插入 繁琐 // 这⾥如果使⽤上⾯的⽅法,扩容时创建新的结点,后⾯还要使⽤旧结 //点,浪费了 // 下⾯的⽅法,直接移动旧表的结点到新表,效率更好 vector newtable(__stl_next_prime(_tables.size() + 1)); for (size_t i = 0; i _next; // 头插到新链表 size_t hashi = hash(cur->_kv.first) % newtable.size(); cur->_next = newtable[hashi]; newtable[hashi] = cur; cur = next; } _tables[i] = nullptr; } _tables.swap(newtable); } size_t hashi = hash(kv.first) % _tables.size(); // 头插 Node* newnode = new Node(kv); newnode->_next = _tables[hashi]; _tables[hashi] = newnode; ++_n; return 1; }
4.4 删除函数:节点清理与空间复用
删除的逻辑是根据key值找到对应的位置,在该位置的链表中检索是否有相等的数值。如果有就进行删除,否则返回false
bool Erase(const K& key) { if (Find(key) == nullptr) return 0; Hash hash; size_t hashi = hash(key) % _tables.size(); Node* cur = _tables[hashi]; Node* prev = nullptr; while (cur) { if (cur->_kv.first == key) { if (prev == nullptr) //只有一个节点 { _tables[hashi] = cur->_next; } else //中间节点 { prev->_next = cur->_next; } delete cur; --_n; return 1; } else { // 在链表里遍历到删除的数据 prev = cur; cur = cur->_next; } } return 0; }
4.5 查找操作:定位效率的优化实践
查找的逻辑和删除类似,根据key值找到映射位置,再在该链表中进行检索,找到返回节点指针,反之返回空指针。
Node* Find(const K& key) { Hash hash; size_t hashi = hash(key) % _tables.size(); Node* cur = _tables[hashi]; while (cur) { if (cur->_kv.first == key) { return cur; } cur = cur->_next; } return __nullptr; }
4.6 功能测试:多场景验证与性能分析
这里我们分别测试插入删除,插入寻找,字符串的处理:
int main() { int a[] = { 19,30,5,36,13,20,21,12,24,96 }; hash_bucket::HashTable ht2; for (auto e : a) { ht2.Insert({ e,e }); } cout
- 实现简单,无需额外数据结构支持。