当前位置：主页 > 查看内容

在pandas中利用hdf5高效存储数据

发布时间：2021-04-21 00:00| 有位朋友查看

简介：一、简介 HDF5(Hierarchical Data Formal)是用于存储大规模数值数据的较为理想的存储格式。其文件后缀名为h5，存储读取速度非常快，且可在文件内部按照明确的层次存储数据，同一个HDF5可以看做一个高度整合的文件夹，其内部可存放不同类型的数据。在Python……

一、简介

HDF5(Hierarchical Data Formal)是用于存储大规模数值数据的较为理想的存储格式。

其文件后缀名为h5，存储读取速度非常快，且可在文件内部按照明确的层次存储数据，同一个HDF5可以看做一个高度整合的文件夹，其内部可存放不同类型的数据。

在Python中操纵HDF5文件的方式主要有两种，一是利用pandas中内建的一系列HDF5文件操作相关的方法来将pandas中的数据结构保存在HDF5文件中，二是利用h5py模块来完成从Python原生数据结构向HDF5格式的保存。

本文就将针对pandas中读写HDF5文件的方法进行介绍。

图1

二、利用pandas操纵HDF5文件

1. 写出文件

pandas中的HDFStore()用于生成管理HDF5文件IO操作的对象，其主要参数如下：

「path」：字符型输入，用于指定h5文件的名称(不在当前工作目录时需要带上完整路径信息)
「mode」：用于指定IO操作的模式，与Python内建的open()中的参数一致，默认为'a'，即当指定文件已存在时不影响原有数据写入，指定文件不存在时则新建文件;'r'，只读模式;'w'，创建新文件(会覆盖同名旧文件);'r+'，与'a'作用相似，但要求文件必须已经存在;
「complevel」：int型，用于控制h5文件的压缩水平，取值范围在0-9之间，越大则文件的压缩程度越大，占用的空间越小，但相对应的在读取文件时需要付出更多解压缩的时间成本，默认为0，代表不压缩

下面我们创建一个HDF5 IO对象store：

import pandas as pd 
 
store = pd.HDFStore('demo.h5') 
'''查看store类型''' 
print(store)

图2

可以看到store对象属于pandas的io类，通过上面的语句我们已经成功的初始化名为demo.h5的的文件，本地也相应的会出现对应文件。

接下来我们创建pandas中不同的两种对象，并将它们共同保存到store中，首先创建Series对象：

import numpy as np 
 
#创建一个series对象 
s = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e']) 
s

图3

接着我们创建一个DataFrame对象：

#创建一个dataframe对象 
df = pd.DataFrame(np.random.randn(8, 3), 
                 columns=['A', 'B', 'C']) 
df

图4

第一种方式利用键值对将不同的数据存入store对象中：

store['s'], store['df'] = s, df

第二种方式利用store对象的put()方法，其主要参数如下：

「key」：指定h5文件中待写入数据的key
「value」：指定与key对应的待写入的数据
「format」：字符型输入，用于指定写出的模式，'fixed'对应的模式速度快，但是不支持追加也不支持检索;'table'对应的模式以表格的模式写出，速度稍慢，但是支持直接通过store对象进行追加和表格查询操作

使用put()方法将数据存入store对象中：

store.put(key='s', value=s);store.put(key='df', value=df)

既然是键值对的格式，那么可以查看store的items属性(注意这里store对象只有items和keys属性，没有values属性)：

store.items

图5

调用store对象中的数据直接用对应的键名来索引即可：

store['df']

图6

删除store对象中指定数据的方法有两种，一是使用remove()方法，传入要删除数据对应的键：

store.remove('s')

二是使用Python中的关键词del来删除指定数据：

del store['s']

这时若想将当前的store对象持久化到本地，只需要利用close()方法关闭store对象即可，而除了通过定义一个确切的store对象的方式之外，还可以从pandas中的数据结构直接导出到本地h5文件中：

#创建新的数据框 
df_ = pd.DataFrame(np.random.randn(5,5)) 
#导出到已存在的h5文件中，这里需要指定key 
df_.to_hdf(path_or_buf='demo.h5',key='df_') 
#创建于本地demo.h5进行IO连接的store对象 
store = pd.HDFStore('demo.h5') 
#查看指定h5对象中的所有键 
print(store.keys())

图7

2. 读入文件

在pandas中读入HDF5文件的方式主要有两种，一是通过上一节中类似的方式创建与本地h5文件连接的IO对象，接着使用键索引或者store对象的get()方法传入要提取数据的key来读入指定数据：

store = pd.HDFStore('demo.h5') 
'''方式1''' 
df1 = store['df'] 
'''方式2''' 
df2 = store.get('df') 
df1 == df2

图8

可以看出这两种方式都能顺利读取键对应的数据。

第二种读入h5格式文件中数据的方法是pandas中的read_hdf()，其主要参数如下：

「path_or_buf」：传入指定h5文件的名称
「key」：要提取数据的键

需要注意的是利用read_hdf()读取h5文件时对应文件不可以同时存在其他未关闭的IO对象，否则会报错，如下例：

print(store.is_open) 
df = pd.read_hdf('demo.h5',key='df')

图9

把IO对象关闭后再次提取：

store.close() 
print(store.is_open) 
df = pd.read_hdf('demo.h5',key='df') 
df

图10

3. 性能测试

接下来我们来测试一下对于存储同样数据的csv格式文件、h5格式的文件，在读取速度上的差异情况：

这里我们首先创建一个非常大的数据框，由一亿行x5列浮点类型的标准正态分布随机数组成，接着分别用pandas中写出HDF5和csv格式文件的方式持久化存储：

import pandas as pd 
import numpy as np 
import time 
 
store = pd.HDFStore('store.h5') 
#生成一个1亿行，5列的标准正态分布随机数表 
df = pd.DataFrame(np.random.rand(100000000,5)) 
start1 = time.clock() 
store['df'] = df 
store.close() 
print(f'HDF5存储用时{time.clock()-start1}秒') 
start2 = time.clock() 
df.to_csv('df.csv',index=False) 
print(f'csv存储用时{time.clock()-start2}秒')

图11

在写出同样大小的数据框上，HDF5比常规的csv快了将近50倍，而且两者存储后的文件大小也存在很大差异：

图12

csv比HDF5多占用将近一倍的空间，这还是在我们没有开启HDF5压缩的情况下，接下来我们关闭所有IO连接，运行下面的代码来比较对上述两个文件中数据还原到数据框上两者用时差异：

import pandas as pd 
import time 
 
start1 = time.clock() 
store = pd.HDFStore('store.h5',mode='r') 
df1 = store.get('df') 
print(f'HDF5读取用时{time.clock()-start1}秒') 
start2 = time.clock() 
df2 = pd.read_csv('df.csv') 
print(f'csv读取用时{time.clock()-start2}秒')

图13

HDF5用时仅为csv的1/13，因此在涉及到数据存储特别是规模较大的数据时，HDF5是你不错的选择。

【责任编辑：赵宁宁 TEL：（010）68476606】
本文转载自网络，原文链接：http://mp.weixin.qq.com/s?__biz=MzA3ODYwNDkzOQ==&mid=2659060588&idx=1&sn=83895c82675499e128ef084c43ed1b9c&chksm=84ca9488b3bd1d9ea30c873f09a338357a1ba00c63fd71394b414965b64b09fd3afb49b4aa4f&mpshare=1&s
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：Nutanix报告显示：企业需要混合云解决方案以保证多云运维的一致 下一篇：没有了

随机推荐

远程数据中心电源监控的关键注意事项

在大流行中，由于数据中心的现场人员缩减，远程监控已变得越来越重要。 COVID-19...
2021年确保业务成功的最具影响力的IT趋势

技术进步在许多方面影响着商业领域的发展。新技术、新兴技术以及经过测试的技术...
MySQL查询缓存都不知道...

本文转载自微信公众号「三太子敖丙」，作者三太子敖丙。转载本文请联系三太子敖...
一周快讯：工信部呼吁加快推动制造业数字

早早早！气候逐渐寒冷，你加衣服了吗？快来看看新出炉的TOP云（zuntop.com）快讯...
什么是内存泄漏？该如何检测？又该如何解

前言这个问题是我之前翻看面经的时候见到的。那位小姐姐把内存泄漏当成了内存溢...
潮数科技为医疗行业数据安全保驾护航

医疗作为基本的民生行业，近几年得到了高速增长，作为技术型行业，其信息化程度...
Progressive是如何将IT实习计划虚拟化的

在过去的20年中，Progressive雇用了70至90名夏季IT实习生，这些实习生从5月至8月...
为什么 NUMA 会影响程序的延迟

为什么这么设计(Whys THE Design)是一系列关于计算机领域中程序设计决策的文章，...
分布式存储的技术趋势（三）：双重RAID机

双重RAID究竟能否有效解决三副本的缺陷?让我们从二者之间的对比开始。在前面我们...
医疗保健系统亟须投资追踪溯源技术的真正

斑马技术首席护理信息官 Rikki Jennings 斑马技术澳大利亚和新西兰市场医疗保健...

在pandas中利用hdf5高效存储数据

推荐图文

唯美伤感文字：快乐，不过是给伤口找一个笑着流泪的

2021年改造数据中心未来最需要的技能

高防服务器的防御原理是怎样的？

实操：大规模微服务架构下的优雅停机

IT高管如何降低数字化转型的潜在风险

唯美伤感语录：有多少真心话，是以玩笑的方式说出去

随机推荐

远程数据中心电源监控的关键注意事项

2021年确保业务成功的最具影响力的IT趋势

MySQL查询缓存都不知道...

一周快讯：工信部呼吁加快推动制造业数字

什么是内存泄漏？该如何检测？又该如何解

潮数科技为医疗行业数据安全保驾护航

Progressive是如何将IT实习计划虚拟化的

为什么 NUMA 会影响程序的延迟

分布式存储的技术趋势（三）：双重RAID机

医疗保健系统亟须投资追踪溯源技术的真正

关于我们