当前位置：主页 > 查看内容

Java、Rust、Go主流编程语言的哈希表比较——《我的Java打怪日记

发布时间：2021-07-18 00:00| 有位朋友查看

简介：哈希表 HashMap、字典是日常编程当中所经常用到的一种数据结构程序员经常接解到的大数据Hadoop技术栈、Redis缓存数据库等等最近热度很高的技术其实都是对键值 key-value)数据的高效存储与提取而key-value恰恰就是哈希表中存储的元素结构可以说Redis、HD……

哈希表 HashMap、字典是日常编程当中所经常用到的一种数据结构程序员经常接解到的大数据Hadoop技术栈、Redis缓存数据库等等最近热度很高的技术其实都是对键值 key-value)数据的高效存储与提取而key-value恰恰就是哈希表中存储的元素结构可以说Redis、HDFS这些都是哈希表的经典应用不过笔者之前也只知道哈希表比较快但对于具体什么场景下快怎么用才快等等知识却一知半解因此这里把目前的一些研究成果分享给大家。

重新认识哈希表

所谓的哈希表就是通过哈希算法快速搜索查询元素的方法比如说你要在茫茫人海当中找到一位笔名叫做beyondma的博主但却并不知道他具体的博客地址在这种情况下就只能在所有的博主范围内展开逐个的排查与摸索运气差的话我可能以找遍所有n个博主的主页才到beyondma 这也就是这种遍历查找的时间复杂度是o(n) 查找的时间会随着博主的数量而线增长。

而哈希算法就是直接将beyondma这个名字进行算法处理直接得到beyondma的博客地址信息在哈希算法的加持下定位某一元素的时间度变成了o(1) 由于哈希算法能够将key 键值本例中指beyond 和value 本例中指beyond.csdn.net 以o(1)的时间复杂度直接对应起来因此哈希表被人称为key-value表存储的元素也被称为key-value对键值对。哈希表的查找过程特别像查字典给出一个字并找到这个字在字典中的位置只是哈希表在一般情况下都很快。当然哈希表也有代价

以空间换时间哈希算法也称为散列算法这种叫法相对比较直观由于哈希算法是通过计算确认存储地址的因此首先进入到哈希表的元素并不一定存到第一个位置存储n个键值对的哈希表往往会消耗比切片多很多的内存空间。

哈希碰撞哈希碰撞是指不同的键值在经过哈希计算后得到的内存地址槽位是相同的也就是说相同的地址上要存储两个以上的键值对一旦发生这种情况也就是哈希碰撞了。在发生碰撞的场景下哈希表会进行退化其中Java会在碰撞强度到达一定级别后会使用红黑树的方式来进行哈希键值对的存储而Go和Rust一般都是退化成为链表。

下面我们首先来详细讲讲两个哈希表的常见误用。

哈希表的误用

不要遍历哈希表局部快不意味着整体快由于哈希表提取单个元素的速度很快因此整个遍历整个集合所需要的时间也会更短这种看法明显是个美丽的误会。

我们后文也会具体讲到哈希表在遍历方面的表现结果是由计算机组成原理决定的与Go、Rust和Java的区别不大因此以下例子先以Go语言的代码为例来说明。

?package main?

???

?import (?

? fmt ?

? time ?

?)?

???

?func main() {?

? testmap : make(map[int]int)?

? len : 1000000?

? //tests1ice : make([]int, len, len)?

? for i : i len; i {?

? testmap[i] i 1?

? }?

? sum : 0?

? now : time.Now().UnixNano()?

? for k, v : range testmap {?

? sum sum k v?

? }?

? diff : time.Now().UnixNano() - now?

? fmt.Println( sum , sum)?

? fmt.Println( diff , diff)?

? // fmt PrintIn( slice , slice)?

???

?} ?

???

可以看到使用哈希表进行遍历的话以上代码运行的结果为

? sum 1000000000000 ?

? diff 29297200 ?

?成功: 进程退出代码 0.??

而对比使用切片遍历的代码如下

? package main?

???

?import (?

? fmt ?

? time ?

?)?

???

?func main() {?

? //testmap : make(map[int]int)?

? len : 1000000?

? tests1ice : make([]int, len, len)?

? for i : i len; i {?

? tests1ice[i] i 1?

? }?

? sum : 0?

? now : time.Now().UnixNano()?

? for k, v : range tests1ice {?

? sum sum k v?

? }?

? diff : time.Now().UnixNano() - now?

? fmt.Println( sum , sum)?

? fmt.Println( diff , diff)?

? // fmt PrintIn( slice , slice)?

???

?} ?

以上代码运行结果为

? sum 1000000000000 ?

? diff 1953900 ?

?成功: 进程退出代码 0.??

可以看到同样长度的集合遍历性能表现切片的耗时只有哈希表的5%左右两者几乎相差两个数量级。

数据访问局部性原理的制约局部性原理可能是计算机基本原理中威力最强的基本定理之一也是程序员在编程过程中必须要考虑的规律因此我们看到在计算机世界中局部性原理经常在速度不匹配的存储介质中得到运用比如英特尔的CPU往往分为三级高速缓存彼此之间的速度差距大概在8到10倍之间其中高速缓存中的第三级缓存又比内存快10倍这样彼此之间各差10倍左右的缓存体系加速效果最好这就像军事行动中先锋部队既要率先行动又不能与大部队过于脱节才能圆满的完成任务。在实际CPU的工作当中如果数据单元A1被访问了那么A1的邻居A0和A2被访问到的可能性也会极大的增加因此CPU一般都会在数据单元A1被访问的同时将他的邻居们调入高速缓存。

也就是说切片这种在内存当中连续分布的数据结构其元素都是以高速缓存行的大小为单位读入到高速缓存的而高速缓存的平均速度又是内存的几十倍因此相当于一次读取操作就能快速处理好几个元素但由于哈希表实际也是稀疏表一个键值对的周围可能没有其它有效键值对因此哈希表在遍历时实际上只能一个一个元素的处理。这样比较下来哈希表在单个元素的访问上快但在整体遍历上慢也就不足为奇了。

在元素不多不要用哈希表我经常看到有不少程序员在元素不多的情况下还坚持使用哈希表来建立key-value的对应关系其实这样的做法并不会带来效率的提升正如我们刚刚所说哈希算法也被称为散列算法键值对的内存地址分布很可能并不连续这就特别不方便局部性原理发挥作用。刚刚我们上文也提到了内存缓存行的大小通常是64byte 在实际测试过程中可以看到如果元素能在一个内存缓存行存储下来就不要用哈希表了这时候用数据切片每次遍历查找的性能反而比哈希表更快。具体代码如下

哈希表实现示例

?package main?

???

?import (?

? fmt ?

? time ?

?)?

???

?func main() {?

? testmap : make(map[int]int)?

? len : 10?

? times : 100000?

? //tests1ice : make([]int, len, len)?

? for i : i len; i {?

? testmap[i] i 1?

? }?

? sum : 0?

? now : time.Now().UnixNano()?

? for i : i times; i {?

? //for k, v : range testmap {?

? //if i%len v {?

? sum sum i%len testmap[i%len]?

? //break?

? //}?

???

? //sum sum k v?

? //tests1ice[i%len] i 1?

? }?

???

? diff : time.Now().UnixNano() - now?

? fmt.Println( sum , sum)?

? fmt.Println( diff , diff)?

? // fmt PrintIn( slice , slice)?

???

?}?

以上代码结果如下

? sum 1000000 ?

?diff 2929500??

而切片遍历查找的实现如下

?package main?

???

?import (?

? fmt ?

? time ?

?)?

???

?func main() {?

? //testmap : make(map[int]int)?

? len : 10?

? times : 100000?

? tests1ice : make([]int, len, len)?

? for i : i len; i {?

? tests1ice[i] i 1?

? }?

? sum : 0?

? now : time.Now().UnixNano()?

? for i : i times; i {?

? for k, v : range tests1ice {?

? if i%len k {?

? sum sum k v?

? break?

? }?

???

? //sum sum k v?

? //tests1ice[i%len] i 1?

? }?

???

? diff : time.Now().UnixNano() - now?

? fmt.Println( sum , sum)?

? fmt.Println( diff , diff)?

? // fmt PrintIn( slice , slice)?

???

?}??

? sum 810000 ?

?diff 1953000?

? 成功: 进程退出代码 0.??

少元素方面集合的元素定位性能上哈希表比切片慢了40% 当然这也是局部性原理造成的由于元素比较少因此切片这样内存连续数据结构完全可以在高速缓存中完成数据的查找定位这样综合下来其性能反而还要比哈希表要快。

正如前文所述哈希算法的工作机制本身就决定了哈希表对存储空间就有一定的浪费因此在没有性能优势的情况下尤其是上述遍历及短表的场景下就不要再用哈希表了完全没有必要。

哈希表的实现机制要点

在笔者看了部分哈希表的代码之后 Java、Go和Rust这三种语言有一些相同的机制也有一些不同其中有两点值得关注当然由于水平有限如有错误之处敬请指正。

避免使用连续内存块我们知道在内存、硬盘等存储设备的管理中连续的空间往往是比较宝贵的而哈希表是相对比较稀疏的数据结构因此Java、Go和Rust基本都引用了一些比如桶的机制尽量避免占用连续的内存块。以Go语言的实现为例

?type hmap struct {?

? count int // map的长度?

? flags uint8?

? B uint8 // map中的bucket的数量 ?

? noverflow uint16 // ?

? hash0 uint32 // hash 种子?

???

? buckets unsafe.Pointer // 指向桶的指针?

? oldbuckets unsafe.Pointer // 指向旧桶的指针这里用于溢出?

? nevacuate uintptr ?

? extra *mapextra // optional fields?

?}?

???

?// 在桶溢出的时候会用到extra?

?type mapextra struct {?

? overflow *[]*bmap?

? oldoverflow *[]*bmap?

? nextOverflow *bmap?

?}?

???

?type bmap struct {?

? tophash [bucketCnt]uint8// Map中的哈希值的高8位为桶的地址?

???

?}??

在访问Map中的键值对时需要先计算key的哈希值其中哈希的值的低8位定位到具体的桶 bucket 通过高8位在桶内定位到具体的位置而不同桶之间所占用的内存区域也不需要是连续的空间这样也就从一定程度上弥补哈希表占用空间较大的缺点。

哈希碰撞处理我们刚刚也介绍了哈希表碰撞的内容也就是出现了不同的键值对要存储在同一个内存槽位的场景极端情况下是所有键值对全部发生碰撞这样哈希表实际也就退化成了链表 Java对碰撞的处理相对比较成熟如果退化的链表长度大于8 那么Java会选择用红黑树这种近似于二叉排序树的数据结构进行替代从而保证定位性能不低于O(logn)

而如果链表的长度小于等于8 那么如我们上文介绍在数据长度比较短的情况下其实链表的性能可能还会更好没必要使用引入红黑树由此可见Java这门语言的确已经非常成熟。

本文转自网络，原文链接：https://developer.aliyun.com/article/785407
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：Redis学习总结--《我的Java打怪日记》 下一篇：我试了试用 SQL查 Linux日志，好用到飞起

随机推荐

用于数据可视化的9款主流分析工具！

【51CTO.com快译】数据可视化工具不断发展，提供更强大的功能，同时改善可访问...
关于 Node.js 中的异步迭代器

从 10.0.0 版开始，异步迭代器就出现在 Node 中了，在本文中，我们将讨论异步迭...
就凭这3点，可以完全理解Python的类方法

在Python语言中有如下3种方法：成员方法类方法(classmethod) 静态方法(staticm...
高并发服务遇redis瓶颈引发time-wait事故

摘要元旦期间订单业务线告知推送系统无法正常收发消息，作为推送系统维护者...
建站什么虚拟主机够用

建站什么虚拟主机够用？这要看搭建的是什么类型的网站。比如个人博客类型的网...
Docker生成新镜像版本的两种方式

Docker生成新镜像版本的两种方式 There are two ways Docker can generate new m...
数据为先，“1+N”模式推动智慧教育创新

信息化2.0时代提出开展智慧教育创新发展行动。2019年2月，中共中央、国务院印发...
星环科技TDS 为数据全生命周期管理提供一

2021年3月24日，主题为《数据的世界，世界的数据》的星环科技2021春季新品发布会...
实时数仓入门训练营：Hologres 数据导入/

本文整理自直播《Hologres 数据导入/导出实践-王华峰(继儒)》视频链接: https:/...
步骤一：基础配置_弹性云服务器 ECS_快速

前提条件请您在购买前确保已完成注册和充值。详细操作请参见如何注册公有云管...

Java、Rust、Go主流编程语言的哈希表比较——《我的Java打怪日记

推荐图文

详解LongAdder实现原理

达摩院重要科技突破！空天数据库引擎Ganos解读

新疆喀什疫情｜疫情之下：大数据的洞察力

阿里云CDN/DCDN加速安全助力企业出海，原生防护延伸

2021 的 Node.js 开发人员路线图

数据科学50年，数据科学家是否依然是21世纪最性感的

随机推荐

用于数据可视化的9款主流分析工具！

关于 Node.js 中的异步迭代器

就凭这3点，可以完全理解Python的类方法

高并发服务遇redis瓶颈引发time-wait事故

建站什么虚拟主机够用

Docker生成新镜像版本的两种方式

数据为先，“1+N”模式推动智慧教育创新

星环科技TDS 为数据全生命周期管理提供一

实时数仓入门训练营：Hologres 数据导入/

步骤一：基础配置_弹性云服务器 ECS_快速

关于我们