使用Elasticsearch的时候,我们常常需要关注数据存储在Elasticsearch中的存储容量。下面,我们来了解一下Elasticsearch中的数据是如何存储。
一、Elasticsearch索引结构
Elasticsearch对外提供的是index的概念,可以类比为MySQL DB,用户查询是在index上完成的,每个index由若干个shard组成,以此来达到分布式可扩展的能力。比如下图是一个由10个shard组成的index。
shard是Elasticsearch数据存储的最小单位,index的存储容量为所有shard的存储容量之和。Elasticsearch集群的存储容量则为所有index存储容量之和。
一个shard就对应了一个lucene的library。对于一个shard,Elasticsearch增加了translog的功能,类似于HBase WAL,是数据写入过程中的中间数据,其余的数据都在lucene库中管理的。
所以,Elasticsearch索引使用的存储内容主要取决于lucene中的数据存储。
二、lucene数据存储
下面了解一下lucene的基本概念。
1. lucene基本概念
2. lucene文件内容
lucene包的文件是由很多segment文件组成的,segments_xxx文件记录了lucene包下面的segment文件数量。每个segment会包含如下的文件。
一份数据写入Elasticsearch 会产生多份数据用于不同查询方式,会比原数据占用更多磁盘空间。
对照上面的lucene文件表,进行简要归纳:
其中.tip占用内存最大,而.fdt、.tim、.dvd文件占用磁盘最大。
知名半导体市场研究机构 IC Insights 发布了对中国集成电路(IC)市场的分析和预测...
根据IDC全球服务器季度追踪报告显示,2019年第四季度全球服务器市场厂商收入同比...
俄罗斯vps哪些内容不能放 ?部分IDC厂商会告诉你俄罗斯vps什么业务、什么内容都...
当消费者按照社交疏散准则纷纷涌向在线购物时,冠状病毒疫情刺激了本已十分繁荣...
CIO们在准备为全球新冠疫情肆虐的去年做总结时,许多人对未来仍然抱着非常乐观的...
【51CTO.com原创稿件】 在企业的数字化转型中,云已经成为必不可少的选项。随着...
香港站群服务器怎么选 ?随着互联网高速发展,很多企业会搭建网站推广业务,网站...
中共中央政治局常务委员会召开会议时提出,要加大公共卫生服务、应急物资保障领...
近期,新基建被政府、民间、资本广泛看好,各省市相继公布投资计划,最终的数据...
预算是否超支一直就是检验项目成败的试金石。在2020年,新冠肺炎的大流行使保持...