当前位置：主页 > 查看内容

面向应用的反范式化建模

发布时间：2021-05-17 00:00| 有位朋友查看

简介：作者天穆 ? 一、基础数据分布一扩展性 scale up scale out 分布式系统里常见的扩展性问题有两种 scale up 和 scale out。拿数据存储举例如果一块盘存不下换一个更大的盘从1t到4t到8t到更大的硬盘但是这种方式很容易触及到系统的容量上限。因为不可……

作者天穆

一、基础数据分布

一扩展性 scale up scale out

分布式系统里常见的扩展性问题有两种 scale up 和 scale out。拿数据存储举例如果一块盘存不下换一个更大的盘从1t到4t到8t到更大的硬盘但是这种方式很容易触及到系统的容量上限。

因为不可能把一块盘做的非常大所以现在业界最常用的扩展性的方式是通过scale out方式一块硬盘不够用更多的盘当一台机器盘的数量达到上限用更多的机器组成集群如果集群不够了用更多的集群组成联邦。再往前一步可以用一个机房用更多机房甚至全球分布扩展整个系统的容量。

二基本问题数据分布策略

做scale out的时候必然会面临一个问题当存储数据的节点或盘变多了以后必须要解决数据怎么在硬盘和机器上分布问题也就是数据分布策略。

理解数据分布策略可以从读、写两个方面开始比如写的时候一个请求或者要写一行数据要写到哪个机器上、写到哪个盘上从读的角度来讲一个请求读取数据不可能访问整个集群的所有盘或者所有机器这样读取这行数据太慢了所以必须有很好的算法或者是分布策略能够让读、写的请求能够一次到达目标。最多可以有多一条的方式但是最终期待的是一条就能获取。

讨论具体的分布策略之前要明白设计分布策略的目标第一是负载均衡第二是线性扩展。

负载均衡是希望在写的时候能够均匀的写到每一台机器上、每一块盘上整体是均匀的不会某些盘或者某些机器成为写热点也不会因为某些机器写的太多水位很高其他机器都空着。从读的角度来讲也一样希望读能够很均匀的分布在整个集群上不会导致热点和倾斜。

达到负载均衡以后还要有线性扩展比如集群扩缩容、盘坏了要下盘、还要加新的盘上来这个时候希望无论机器怎么扩容盘怎么增减整个系统仍然处于负载均衡的状态。只要保证这一点当系统盘增加了或者机器增加的时候整个系统仍然能够处于线性扩容的关系机器多了能够存的数据就多了能承载的吞吐也变多了是整个数据分布的目标。

总结

负载均衡

写均匀的写到集群的每一台机器上每一块盘上读均匀的从集群的每台机器上、每块盘上读数据。

线性扩展

机器扩缩容磁盘上下线系统始终/最终处于负载均衡状态系统容量、吞吐与系统资源成正比(线性关系)。

三两种分布策略

目前业界有两种比较典型的分布策略一种是顺序分布一种是Hash分布。

顺序分布根据用户定义组件让数据从最小的主键开始依次往后排如图例所示 user_id和ts是联合的主键先按user_id 1、2、3、4、5排序排完之后再按ts进行排序。顺序分布是把整个表做拆分例如把user_id 等于1的分到一个Region里面 user_idt等于2、3的分到一个Region里面。

Hash公布需要有一个Hash算法选一个分区键经过算法得到所在机器的名字。常见的一种算法就是取模“分区 user_id % 机器数” 可以拿user_id模上这个机器数得到所在的机器。如图例所示假设有3台机器 “%3 0”在第一台机器上 “%3 1”在第二台机器上以此类推是一种基于规则的分布。

1 顺序分布目前比较典型的产品有hbase tidb。

顺序分布的缺点

第一是比较依赖主键的值如果user_id分布不均匀因为通常user_id是顺序分配的比如有1、2、3、4、5、6、7、8、9、10 user_id更大的时候热度会比较高 user_id小的时候热度会比较低。会产生一种问题越往表的尾部越热头部的可能就会冷一点会产生数据倾斜以及访问倾斜需要通过额外设计或人工介入调整。第二相同前缀的数据也可能会分开比如上图所示的“user_id 3” 的数据可能会被分到两个Region上当访问等于3的所有数据时必然会涉及到两次Region。第三因为有强大的干预能力需要很复杂的路由表机制。

顺序分布优点

第一一个Region包含哪些数据通过路由表决定比如HBase的meta表 tidb里面是PD。Region可以灵活分布比如让user_id 1的数据在Region里面拆分也可以把user_id 1、2、3合并。第二 Region在哪台机器可以人工指定比如可以让Region 1单独分一台机器 Region 1、3共享另外一台机器在生产上尤其是在有数据热点场景下有人工介入干预能力。

2 Hash分布是基于规则的分布选取分区键 user_id根据分布算法或者Hash算法得到所在的机器。比较典型的代表产品有cassandra、dynamodb。跟传统关系数据库里面的分库分表非常类似因为没有外部依赖所以比较简单。

缺点

第一是在做扩缩容的时候需要对很多的数据进行搬迁所以需要一致性hash方案。

第二是分区无法灵活调整因为是基于规则的当数据基于分区键算好分区之后所在的机器就确定了不能灵活调整。

第三有数据倾斜问题比如有超大分区比如user_id 1是个超大的用户记录非常多会产生热点的问题 user_id 1的所有的数据强制分布在某一台机器上数据特别多的话这台机器很快会达到上限。

四 Hash分布分区键的选择

如图所示基于直觉的方式是选user_id作为分区键为什么不能用把TS也放进去

假设把TS放进去 user_id和TS一起算Hash 势必会产生一种情况就是user_id 3的数据可能分布在整个集群的不同位置做查询的时候where user_id 3 等于3的所有数据会面临查很多分区。而且 user_id 3下面的TS 没法知道有多少是一个不可预测的值这时涉及到跨分区的查询这种查询会退化成全面表扫描是不能接受的。

选择分区键要结合查询的场景选择合适的分区键尽量避免或者一定要避免跨分区的查询。比如where user_id 3 这种是没办法直接高效的定位查询一定要扫全表但是where user_id in (3, 6, 9, ...)这种是可以拆分成多个请求逐个查询因为是可枚举的。

二、Cassandra的数据模型一 Partition Key Clustering key

Cassandra数据模型里ts叫聚类键 user_id叫分区键分区键和聚类键加一起构成表的主键主键要求唯一性。比如下图所示的表里面 user_id和TS放到一起一定要全局唯一如果400有两个就是冲突的数据。

对于分区键和聚类键可以有很多个可以很多个Key作为分区键也可以有很多Key作为聚类键。除了主键之外 Cassandra里面还有非主键或者叫属性列或者叫数据列比如location存具体数据不参与数据排序。

二联合主键与前缀匹配

key比较多的场景称为联合主键或联合主键如何排序以及查询如图例所示的场景分区键是city 有两个聚类键一个是last_name 一个是first_name。因为分区间键不参与排序当我们做Hash分布的时候分区键在整个表里面随机分布但是在某一个特定的分区键下面 clustering key是顺序分布的。图例中是按last_name前缀排序 p排在前面 w排在后面在last_name相同的时候再排下一个列 potter相同的时候 Harry排在前面 James排在后面是这种排序规则。

因为是这样排的所以在查的时候要从左到右依次去查有以下几种情况

1.where city hangzhou and last_name Potter 前缀扫描

2. where city hangzhou and last_name Potter and first_name James 单行读

这两种可以很高效的完成因为查询的扫描范围和结果集一样大有一些场景不能很好的支持如

3. where city hangzhou and first_name Harry 跳过了last_name列直接查first_name 这种查询first_name不能够用于圈定扫描范围会变成一个filter 直接对每一行数据过滤查询的扫描范围是city hangzhou 的所有数据为每一行数据基于first_name Harry 做过滤假设 hangzhou 是一个很大的Partition Key 数据量很多这个查询会非常低效。

4. where city hangzhou 当city hangzhou 的时候就是一个跨分区键的查询也不能被支持。

5.where city hangzhou and last_name P and first_name James first_name进入filter。

6.where city hangzhou and last_name P and first_name Ron

这两个查询从表上看 James排在前面 Ron排在后面但是事实上last_name是范围查询 first_name字段变成filter来扫而不是用来缩小查询范围所以说5和6两个语句的扫描范围一样。

三逻辑分区一组具有相同前缀的行

一个Partition Key的值代表一个分区但本质上来讲并不是物理上的分区比如一块盘、一个机器有物理的实体跟其对应但是分区不会有一个文件或者实体跟其对应分区是一种逻辑概念。

在这里面把分区定义成是一组具有相同前缀的行前缀是Partition Key 如下图所示 Partition Key等于杭州杭州这两行数据就是一个分区等于上海的就是另外一个分区这种就是叫逻辑分区。在物理上没有一个有力度的实体跟它对应所以它的数量可以无穷大这里的city是一个字符串可以有无穷多的数据组合 city分区键可以无穷无尽的分区。

分区键值域可能非常大(比如long) 分区键的每一个值都代表了一个分区分区的数量可能会非常大分区的本质一组具有相同前缀的行前缀即分区键的值所有的分区都是逻辑分区线性扩展。

线性扩展是指分区根据一致性Hash算法划分到某一个机器上一台机器可以服务很多分区机器数量增加之后能够承载的分区数量也会相应的增加能够获得线性扩展能力。除非产生了一些巨大的分区这些分区把一些机器占满了这种情况下线性扩展能力是受限的。

三、范式与反范式设计
一范式化与反范式化

范式化是传统关系型数据库要求的概念数据库刚出现的时候盘都比较贵存储空间都比较贵数据库的表设计必须要满足降低数据冗余度的原则需要范式化的设计减少数据冗余度。

另外需要增加数据的一致性校验比如有很多表一些表来存买家一些表存卖家一些表来存订单通过主键和外键之间的关系进行关联通过外建描述数据的完整性也是范式化设计的一部分。这种通常是用于关系数据库的设计而且能够很好的解决复杂业务的设计通过一整套的方法论业务模型进行抽象。

在NoSQL系统里面强调反范式化的设计通过增加冗余度换取更好的性能。带来的一个问题就是数据冗余存储空间开销上升但是现在存储越来越便宜了成本并没有上升很多。

范式化(Normalization)

目的

? 降低数据冗余度

? 增加数据的完整性(如外键)。

? 通常用于关系型数据库的设计

反范式化(Denormalization)

增加冗余度用空间换时间数据在多个地方都有存在一致性问题。

二示例

下图所示是一个部门和部门下的雇员之间的表设计比如有个department表存 depId和名字还有一个user的表来存每一个人和userId,要描述一个部门还有哪些人的时候需要把这两张表关联起来。记录表的depId和userId之间的关系当查一个部门有哪些人的时候要先扫这个部门的人员表得到这个部门的userId信息比如查depId 2 得到的userId是1和2 这时转user表拿到1和2两个ID的用户名同时拿depId 2的depName 才能获取depName是Math 一次查询需要有三张表这是范式化设计。

反范式化设计就用一张表来代替。如下图所示 depName和userName直接存在一起查询一次搞定。缺点是名字重复存在 depName内容也重复存在数据冗余度增加。另外当修改名字的时候要改很多地方。

三反范式化优缺点

优点

多个表的数据统一到一张表里 JOIN不是必须的(大部分NoSQL也不支持join) 查询更高效采用宽表设计从业务设计来讲业务更简洁查询更简洁整个业务模式会更清晰 SQL会更简单维护性会更好当业务出现问题的时候调查问题的效率得到相应的提升。

缺点

冗余存储空间开销增加。但是因为现在存储变便宜了所以说成本没有增加。数据冗余之后带来的一致性的问题比如只有一张表 Math存了两次但是假设当有很多张表的时候都有Math字段会面临在多张表之间处理一致性问题。

四原则

反范式化设计的基本原则是

根据读写模式来设计表设计主键使用分区键来规划数据分布一次查询需要的数据尽可能在一个分区里使用聚类键来保证数据在分区内的唯一性并控制结果集中的数据的排序(ASC/DESC) 设计好主键以后使用非主键列来记录额外信息。这个时候非主键包含了很多业务字段比如订单存储希望其包含订单金额、订单ID、买家名字、卖家信息、商品信息等是一张大宽表可以通过一次或者是少量的查询得到需要的所有数据避免join 提升整个系统的查询性能。反范式化设计将原本需要通过join得到的数据都包含进来。

四、典型场景分析

一典型场景一物流详情

场景描述

电商物流订单每个订单会经历多轮中转最后达到用户手中。每一次中转会产生一个事件比如已揽收、装车、到达xx中转站、派送中、已签收。需要记录全网所有物流订单的状态变化为用户提供订变更记录的查询能力。订单数据量极大可能有上百亿体量不能影响读写性能。

场景抽象

写记录一个订单的一次状态变更。读读取一个订单最近N条记录读取一个订单的全部记录。

如下图所示表中有两列主键 orderId指订单的ID 是分区键 gmtCreated指事件产生的时间是聚类键非主键列detail指的是一次事件的信息比如已揽收或到达的状态是数据列。

1 物流详情高表设计

高表设计

行不断增加一行描述一个订单的一个事件。一个订单的所有数据由连续的一组行来描述(一个逻辑分区)。查一个订单的所有数据时事实是查一组具有相同前缀的行就是查一个分区的数据。

优缺点

单个分区键下的key数量可以很多过多的数据将导致宽分区的产生应避免无论数据量多大单次next()的RT可控流式ResultSet。

高表设计可以避免很大的行产生因为所有的变化都产生在行里面不是产生在列里面。可以很好的解决orderId的问题如果某一个订单数据量特别多的时候会产生宽分区需要避免。常规做法是增加维度拆开分到不同的分区里面。

高表设计无论数据量多大单次读下一行数据的时间不变有流式ResultSet能力一次加载一部分数据。

2 物流详情宽表设计(不推荐)

宽表设计

用一行来描述一个订单的所有事件每一列是一个事件用事件的发生事件作列名也可将所有事件encode到一个列里。

宽表设计用一行来描述一个订单的所有事件每一次事件通过一列来描述。

如上图所示把时间作为列名每一个列记录了一个订单的某一次事件。也可以把后面的列合到一起变成一个列。

优缺点

单行读读一个订单的所有的数据时只做单行读业务会更简单。无法预知列名列数量每一行的列都可能不一样强依赖schema-free能力只能读所有数据不容易实现topN读取超大行风险个别行的列特别多会影响性能。

所以在物流详情场景下不推荐宽表设计建议用高表设计。

二典型场景二时序类---监控系统

如下图所示是CPU监控对整个集群的多台机器做 CPU指标的监控 CPU指标有user、system、idle等不同类型还有很多主机如host 一台机器的某一个CPU user指标有很多点位比如这里面192.168.1.1机器在CPU type里面产生了两个点一个是30 一个是40 这个是时间线。

这个表里面列出来的是监控系统里面需要的数据在这个数据场景下怎么选择分区键、聚类键以及监控数据的存储可以有以下几种选择

分区键怎么选

metric metric host metric host type metric type host。

监控数据怎么存

一行一个点一行存所有点一行存有限个点如1分钟/1小时内产生的点。

1 分区键只使用metric

只使用metric作为分区键意味着分区只有 CPU 如果加入网络、磁盘每一个metric是一个分区意味着所有被监控的对象所有机器的所有数据都在一个分区下面很容易触发单分区限制。

因为有变量和不变量的问题 CPU指标本身是不变量即使未来新增指标通常也是低频事件。但被监控的机器是变量会不断的增加可能数量巨大(比如物流订单的数量)

单分区限制所有机器的指标都聚集在一个分区里被监控的机器可能无限增长但单机的承受能力不会线性增长。业务侧识别变量和不变量cpu指标本身是不变量即使未来新增指标通常也是低频事件被监控的机器是变量会不断的增加可能数量巨大(比如物流订单的数量)。

2 分区键 metric host

metric host策略可以很好的控制了单分区的数据量不会出现宽分区。因为除了 host以外没有其他维度大幅度的变化量如下图所示 type和TS都不会太大变化 TS本质上是作为host下面的一个子集存在比如在做一个查询的时候要查某一台机器的某一段时间范围的 CPU指标肯定希望这台机器的数据都排在一起用一个查询搞定所以TS不能够放在分区键里面。

这个设计的缺点是并发读写同一个机器的cpu指标请求都路由给同一台机器不利于并发。

优缺点总结

很好的控制了单分区的数据量不会出现宽分区单机的所有类别的cpu指标都在一个分区里并发读写同一个机器的cpu指标请求都路由给同一台机器不利于并发。

3 分区键 metric host type

metric host type策略把指标类别也加到分区键里面可以很好的适配并发查询模式提高整个集群的吞吐。因为 metric host type整体作为分区键只有三个全相等的时候才会分在一个分区里面。

另外一种方式是host和type交换位置其对采用一致性hash的cassandra来说没有区别。但是对于顺序分布来讲可能会有一点区别因为改变了key的值域范围可能导致值变少了这个时候会产生聚合效应可能导致一些潜在的问题。总结

同一台机器的不同cpu类别的指标在不同的分区里很好的支持并发访问 host和type的顺序对采用一致性hash的cassandra来说没有区别。

4 优化 type合并至metric中

metric host type策略还有另一个优化 type合并至metric中如下图所示是时序数据库建模时的特点 type在时序数据库里面叫 tag 标签的意思可以有很多标签比如IP是一种标签所在机房可能也是一个标签甚至可以有业务的标签 CPU的 type也是一种标签这种场景下可以把标签合到 metric中。

因为type是可枚举的只有几种不会增加也不会减少。合并过去之后减少了列存储的列变少以后可以提高性能减少开销仅数据量较大时体量小的时候看不出来。

还有一种场景储存的是进程ID 这种时候没办法合并比如监控每一个进程的网络流量这个时候进程ID没法合到 Metric里面因为进程ID不可预估而且不可枚举。

5 数据点位的存储宽表 or 高表

数据点位的存储指的是每个时间点metric的值依然可以有高表和宽表的设计。如下图所示高表设计把TS放到Clustering key里面一行存储一个数据点。高表设计因为一行只有一列容易扩展多值监控对于像经纬度一个点位有两个值在高表设计里面很容易扩展。

宽表设计一行存储这个某个机器的某个指标的所有点这种宽表设计还是会存在单行上线的问题列多了以后会有性能问题。

融合设计一行记录有限个点比如存1分钟采集的所有的点或者1小时的点结合高表和宽表的设计粒度选择合适的时候得到最优的性能而且能够配合整个系统内部机制如cache bloomfilter等。

当然这些例子在时序场景下面比较简单能够解决简单业务的时序设计问题对于业界的实际数据库来讲但生产使用时有很多考量因素。

总结

高表设计一行存储一个数据点如上表所示容易扩展多值监控如经纬度宽表设计一行存储这个某个机器的某个指标的所有点单行上限融合设计一行记录有限个点如1分钟 1小时内采集到的所有点粒度选择由指标的采集频率决定以控制单行的列数适当的控制行数可以配合一些内部优化机制如cache bloomfilter等

注意时序建模的原理很简单但生产使用时有很多考量因素各TSDB都有不同的侧重点。应根据业务实际需要选择合适的模型没有银弹

三常见误区

1 常见误区一分页查询

常见的分页查询误区从Mexico[MOU23] 过来的用户很容易遇到一个问题拆请求如下图所示做一个大表的扫描 user id 3的数据可能非常多为了避免一次返回太多的数据需要对请求进行拆分。

比如按TS进行分页先扫500的再扫下500 再扫下500 一次一次扫。在 MySQL里面这样做是合理的因为RPC一次返回所有记录。但是在Cassandra里面没必要因为Cassandra用的是一种流式ResultSet方式在系统设计层面已经考虑到了不断往下next的情况已经做了请求拆分。比如第一次next的时候会新加载500行的数据等到这500行数据消化完了再下一次next 会加载下500行数据如此往复直到所有结果集返回。

总结

流式ResultSet

为了避免单次RPC返回过多数据导致RT过高 CQL driver会自动对请求进行拆分第一次next()调用会从服务端load N行数据之后的N-1次next()只从内存消费数据下一次next()会再加载N行数据到客户端如此往复直到所有结果集返回。

参见 https://docs.datastax.com/en/developer/java-driver/3.2/manual/paging/。

结论不要为了拆分大请求而进行分页。

2 常见误区二修改主键

场景1 修改主键的schema 在MySQL里面可以但在Cassandra里面不允许只能重新建表。场景2 修改主键的值本身就是错误的说法。考虑java的map的key key能修改吗修改key的逻辑就是删除老key 写入新key。从数据库角度来讲没有修改主建操作只有删除、添加这两种操作非主键可以修改。

本文转自网络，原文链接：https://developer.aliyun.com/article/784103
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：【深度】阿里巴巴万级规模 K8s 集群全局高可用体系之美 下一篇：数据湖大数据处理之Lambda架构

随机推荐

2021年值得关注的8种边缘计算趋势

边缘计算的下一步是什么，它将如何影响您的战略?专家权衡边缘趋势并讨论工作负载...
还在用Excel+ppt做数据分析报告？用这个

无论是专业的数据分析师还是销售、人力等基本的业务岗位，在汇报时总是免不了要...
如何设置裸金属服务器的静态主机名？_裸

问题描述 Linux裸金属服务器的静态主机名来源于创建裸金属服务器时，通过控制台...
jmeter压测过程中，TIME_WAIT很多导致请

背景介绍 ? ? ? ? 为了摸底项目的性能，需要进行性能测试。经过一番调研之后，决...
品相极佳的“929.gg”被竞拍者以1.3万拿

TOP云 1月11日讯，纵观上周西数平台的交易纪录，在一口价前三和竞拍价前三的榜单...
懂了数据结构框架思维，一切算法不过是纸

一、数据结构的存储方式数据结构的存储方式只有两种：数组(顺序存储)和链表(链...
隐藏的OAuth攻击向量

基本介绍过去十年来，OAuth2授权协议备受争议，您可能已经听说过很多return_uri...
云岫行业研究-基于云原生时代的身份安全

云岫资本企服组 2021 年 3 月【前言】随着业务上云、生态协作、多云混合等场景...
Linux服务器登录方式概述_裸金属服务器 B

根据裸金属服务器的网络设置，以及您本地设备的操作系统，您可以选择合适的方法...
阿里巴巴食堂给程序员准备的年夜饭，看完

阿里巴巴程序员的速度论技术水平没得说论干饭能力也是惊人阿里人1年吃掉495...

面向应用的反范式化建模

推荐图文

加密货币如何从大数据分析中受益

2021年的7个企业云战略趋势

为什么需要集成数据生命周期解决方案

支持列表和使用限制_裸金属服务器 BMS_产品介绍

科普 | 说说大数据是什么，及其特点与应用

重磅！15个大数据、人工智能和区块链重大项目在静安

随机推荐

2021年值得关注的8种边缘计算趋势

还在用Excel+ppt做数据分析报告？用这个

如何设置裸金属服务器的静态主机名？_裸

jmeter压测过程中，TIME_WAIT很多导致请

品相极佳的“929.gg”被竞拍者以1.3万拿

懂了数据结构框架思维，一切算法不过是纸

隐藏的OAuth攻击向量

云岫行业研究-基于云原生时代的身份安全

Linux服务器登录方式概述_裸金属服务器 B

阿里巴巴食堂给程序员准备的年夜饭，看完

关于我们