当前位置：主页 > 查看内容

亿级数据分析性能杀手锏 - 列式存储

发布时间：2021-06-10 00:00| 有位朋友查看

简介：看似非常简单的一条 SQL，如下图，我们求解的无非就是月总销售量 SELECT OrderMonth, SUM( OrderAmount) AS Amount FROM FctOrderSales WITH(NOLOCK) WHERE OrderMonth BETWEEN '2017-01-01' AND '2018-12-31' GROUP BY OrderMonth 一旦 FctOrderSales 的数……

看似非常简单的一条 SQL，如下图，我们求解的无非就是月总销售量

SELECT OrderMonth, SUM( OrderAmount) AS Amount
FROM FctOrderSales WITH(NOLOCK)
WHERE OrderMonth BETWEEN '2017-01-01' AND '2018-12-31'
GROUP BY OrderMonth

一旦 FctOrderSales 的数据量增长，恐怕不等个半把个小时，是出不来的。

再加上，我们的用户不会那么轻易的放过“折磨”我们 IT 工程师的机会，就仅仅围绕月份来做统计，可能还会加上，产品类型，地区等等维度。这样一来，就更加麻烦了，眼珠子恨不得贴到屏幕上，一分一秒的看着时间的流逝，可惜了青春啊~

事实上，大家肯定会出一定的方案来解决这种效率奇慢的查询，比如：

1 加个索引

2 加个分区

3 ETL 先算好聚合数据

4 。。。

解决方案总是有的。在这里我们来看看另一种玩法，列式存储。

上图中，表格中的数据，就是典型的row-based data page 行式存储数据页。一行相邻一行的存储在一个数据页上，一列肩并着一列存储在一行上。而 Columnar Storage Layout 就是列式存储，每一个列的数据都被存在一个数据文件中，比如date_key 按照顺序存储在 date_key file 中，Product_sk 也一样，按照二维表中的顺序，存储在 product_sk 文件中。每个列式存储文件中，对应行号上存储的数据，都是表结构中相应行号的列数据。即要获取原表结构中，第20行的数据，那么要分别从这些列式存储的文件中，取得各自的第20行数据，集合起来！

考虑以下场景，比如我们就要分析 2013年，每个月，某两个品种，69，31 的销量：

SELECT

getMonth(date_Key) AS Month

getProductName(product_sk) AS Product
SUM(quantity) AS Quantity

FROM FctSalesOrdinary

GROUP BY getMonth(date_Key), getProductName(product_sk)

在这里，让我们做出这些假设：

1 date_key是存在一个数据文件里面的，product_sk 是存在另一个数据文件里面的。2013年整年的销售数据有 200W 条，每个文件的段能存储100W，（按照 SQL Server 的存储容量来计算），这样就总共抓取 2个段，按照每次读取一个segment的机制，连续读取 2个连续段就只有一次读取，因此磁头读取不需要再次寻址。

2 假设2013年***条数据在源数据表中，是第100万条数据，2013年***一条数据是第299万条数据。

按照上面的图解释，我们读取2013年数据的时候，读取product_sk的字段，即读取第100万条数据到 299万条数据，然后根据product_sk做限制。比起row-based data page（行式存储数据页），其他字段store,promotion,customer字段统统舍去，少读了很多的无效数据。

列式存储还带有一个压缩的选项。因为每个列式存储文件都是存储的同质数据，那么对这些同质数据进行压缩，会有很好的压缩效率。压缩带来的好处是，减少了吞吐量，使得内存容下了更多的数据，并且还可以有效使用 CPU L1 Cache, 这种技术称为 vectorized processing.

*参考The Design and Implementation of Modern Column-Oriented Database systems.

为什么列式存储更适合分析性数据仓库：

1. 分析决定了一定是读取大范围连续属性的数据。不是随机读，而是顺序读，速度快很多

2. 请求基本上是采取多个维度同时读的方式，而不会读取所有的列。这样很多row-based data page (行式存储数据页）都会舍去不必要的相邻列的数据。

3. 列式存储的机制：一个数据文件中单独存储的是整个列的数据，按照segment来分段，一次至少读取一个段。一个段中可以存储大量的同质数据。

目前支持列式存储的数据有：

Greenplum
PostgreSQL
MariaDB
Microsoft Azure SQL Data Warehouse
Microsoft SQL Server 2012 及以上
BIRT Analytics ColumnarDB
IBM Db2
Oracle Database/Exadata
SAP HANA
TeraData
Apache HBase
ClickHouse
Apache Parquet

以上是我们常用的数据库品牌，还有一些小众数据库，比如 MonetDB,kdb+ 等也支持。所以趁早用起来吧

本文转载自网络，原文链接：http://mp.weixin.qq.com/s/W0rOwHGTF2GdAgckhdflEA
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：从不同角度看灾难恢复和数据备份 下一篇：没有了

随机推荐

为什么防火墙不能保护您免受DDoS攻击

不言而喻，不是所有的DDoS防御方案都是全面且有效的。无论Web应用防火墙(WAF)、...
领先技术筑稳发展根基，AMD EPYC构建数据

科学技术是第一生产力。这句话适用于任何领域，芯片行业自然也不例外! 由于技术...
Ovum观点：智慧城市变现需要创新的融资和

来自Ovum的最新研究报告称，智慧城市是一个已经引起许多炒作的垂直领域。但是，...
自己 new 出来的对象一样也可以被 Spring

按理说自己 new 出来的对象和容器是没有关系的，但是在 Spring Security 框架中...
选择美国仿牌服务器需要注意什么？

都说美国外贸服务器不好选，美国外贸服务器，美国抗投诉服务器真的就那么不好选...
一文读懂服务器线路丨常见的服务器线路有

? 全文 4107 字 7 图，预计阅读时间 23 分钟在服务器的租用过程中，线路是很重...
全新启航的联想企业业务集团以智能基础

【51CTO.com原创稿件】中国业务整体营收同比增长19%，非超大规模数据中心业务实...
数据中心供应链在疫情期间能维持多久？

数据中心行业专家表示，冠状病毒疫情持续时间越长，保持数据中心的正常运行就越...
私有云存储和公有云存储有什么不同？如何

2018年年初以来，政府事业单位频频展开公产品和CDN招标，各大云服务厂商同时发力...
香港服务器怎么样托管最便宜？

如今，香港服务器托管市场已经蓬勃发展，然而，用户现在考虑的不仅仅是服务器对...

亿级数据分析性能杀手锏 - 列式存储

推荐图文

报告：2022年我国国内在线教育市场规模将破5400亿元

四点分辨香港高防服务器哪家好？

如何利用CPU Cache写出高性能代码，看这些图就够了

我们谈谈原子操作

在线直播服务器怎么选？本文可供参考！

韩国云主机韩国云vps韩国云服务器一样吗？为什么？

随机推荐

为什么防火墙不能保护您免受DDoS攻击

领先技术筑稳发展根基，AMD EPYC构建数据

Ovum观点：智慧城市变现需要创新的融资和

自己 new 出来的对象一样也可以被 Spring

选择美国仿牌服务器需要注意什么？

一文读懂服务器线路丨常见的服务器线路有

全新启航的联想企业业务集团以智能基础

数据中心供应链在疫情期间能维持多久？

私有云存储和公有云存储有什么不同？如何

香港服务器怎么样托管最便宜？

关于我们