当前位置：主页 > 查看内容

云原生数据湖构建、分析与开发治理最佳实践及案例分享

发布时间：2021-06-04 00:00| 有位朋友查看

简介：作者郑锴 - 阿里云高级技术专家张晨晖 - 阿里云产品专家最近几年数据湖热度很高当搞大数据的同学聚在一起时候经常会谈到这方面的话题可能有的同学说“我们在做 Hudi 数据湖你们用 Delta 还是 Iceberg ” 也会有同学说“我在阿里云上搞了一个OSS数据湖……

作者郑锴 - 阿里云高级技术专家张晨晖 - 阿里云产品专家

最近几年数据湖热度很高当搞大数据的同学聚在一起时候经常会谈到这方面的话题可能有的同学说“我们在做 Hudi 数据湖你们用 Delta 还是 Iceberg ” 也会有同学说“我在阿里云上搞了一个OSS数据湖”、“什么你们数据湖用 HDFS ”、“我们在阿里云上搞 JindoFS 优化数据湖”、“最近搞了个湖仓一体”等等的讨论。

数据湖的相关讨论可以说是千人千面每一个技术同学面对数据库的时候根据自己不同的工作背景都可能有自己不同的理解那么数据湖到底意味着什么呢可以先了解一下数据湖的三要素。

数据湖核心三要素

1、包罗万象的数据

不是指数据库也不是数据仓库而是指各种数据包罗万象。非结构化数据、半结构化数据和结构化数据。

2、理想的存储

HDFS 不是。对象存储 It depends。实际上公共云对象存储才是。为什么海量弹性分层、归档低成本安全合规。

3、开放的计算

数据广泛可触达充分挖掘价值。丰富和开放的计算不止 BI AI。针对计算场景的优化、加速性能不打折扣。

那么到底什么是云原生数据湖呢

从理念上来讲就是按照云原生的理念构建出来的数据湖存储系统。运用数据湖构建产品快速搭建出来的基于oss对象存储系统挖出来的数据湖。然后基于这样的诉求我们可以做BI和AI的分析。那么我们以阿里云上的云原生数据湖为例可以看下云原生数据湖的上云途径。

可以看到我们可以利用阿里云数据湖构建Data Lake Formation 、统一的对象存储OSS快速搭建出一个数据湖。

那么利用这个数据湖我们可以用数据集成DateHub和 Data Lake Formation 提供的数据入湖的手段把各种数据源做数据入湖的处理。那么我们最主要的业务目的是什么是利用上面各种开放丰富的计算来做分析。

我们提供了阿里云自研的MaxCompute这种分析产品还有E-MapReduce这个开源大数据全家桶的分析产品来做BI的分析。我们可以利用阿里云的PAI、EMR DateScience 这种AI的套件来做AI的智能分析。

我们刚才说了这个计算是非常开放以及丰富的如果你在阿里云上有一个自建的Hadoop 或是CDH这种集群同样可以对接到数据湖然后进行分析。战略上面我们还合作了大量的第三方产品比如Databricks数据洞察同样可以对接到数据湖进行分析。

接下来我们再来看一下数据湖的构建和分析的过程我们提供了怎样的支持。以下讲的是数据湖构建我们专门提供了这样的一个数据湖构建产品Data Lake Formation。

它的核心就是维护数据湖的元数据数据湖不光是包括数据本身还包括数据的元数据。数据的元数据是在Data Lake Formation中统一管理和存储的。好处是避免了各个计算产品自己来维护文件的元数据所带来的不一致性。统一集中来管理的话我们还可以做集中的访问控制上的权限或日志审计。Data Lake Formation对接的各种数据源比如MySQL、Kafka等提供了离线和实时入湖的方式。目前我们对接的数据湖的格式有Delta和Hudi。

接下来重点讲解一下我们在分析产品上利用开源大数据分析的套件E-MapReduce来做数据湖分析。

EMR其实是一个开源大数据全家桶的产品以上只是列出了数据湖分析上的相关支持。在分析引擎和OSS数据湖之间我们还提供了数据湖加速的支持。我们有了Alluxio这种开源的加速器同时也有自研的JindoFS加速器。JindoFS对OSS数据湖我们提供了全面对接开源分析引擎的支持。

整个EMR的产品可以run在ACK上也可以run在ECS上面利用ECS和ACK的弹性伸缩的能力我们让整个数据湖分析变得低成本。

刚才提到在EMR产品套件中有了数据湖加速的这一层次接下来重点讲一下JindoFS和JindoTable双加速的能力。

JindoFS主要是在文件系统层面利用计算侧的磁盘资源对远端的OSS数据做缓存加速从而大幅度提升Hive、Spark、Presto的分析处理能力。JindoTable和JindoFS相当于是相互配合它主要是在表分区这个层次上面去做缓存去做加速。然后对Parquet、ORC这种格式做了Native的优化从而更进一步提升了上面提到的分析引擎的处理能力。

除了性能优化我们知道数据湖还需要做成本优化因为里面保存了大量的数据。JindoTable和JindoFS同样互相配合我们做了分层和归档。利用OSS的基础能力我们维护数据的热度、冷度然后通过Jindo的相关命令可以对数据进行缓存、归档和分层这些功能。利用分层的能力我们可以看到假定一个用户如果它有10PB的数据以HDFS这种方式来做存储方案成本会达到上百万。但如果我们换用OSS数据湖的方案我们可以把大量的冷数据放在归档整个存储成本可以大幅度降低。

接下来我们来看一个数据湖的最佳实践。来源于上海数禾科技的大数据架构师程俊杰先生的一篇在阿里云社区分享的案例文章。以下经过他的同意对他的文章进行了一些摘要和加工。

上海数禾科技在某云上面使用的是CDH EMR 云上混合的架构。它迁移到阿里云之后是按照数据湖的理念做的设计充分考虑到他们不同的业务需求以及权限控制和脱敏相关的部分。

经过过去的一年他们在成功地迁移到阿里云数据湖架构上之后又做了EMR的治理和OSS的治理这些治理方面的经验在文章里面都做了大量的分享。最近他们又升级到了湖仓一体的架构把元数据用Data Lake Formation来统一管理然后组合使用EMR和MaxCompute等多个阿里云计算产品来对数据湖进行分析。

戳我直达文章获取具体实战细节数禾云上数据湖最佳实践

以上是数禾在阿里云上面的数据湖架构我们可以看到它在OSS的数据湖上面其实有多个Bucket。在这上面利用JindoFS提供的OSS透明的缓存加速能力然后有多个EMR集群分别去按照不同的业务诉求来做分析。面对这么多集群他们的调度是用的目前比较流行的大数据调度平台Airflow。

刚才提到数据湖的一个非常大的价值是把存储成本和计算成本降下来。计算成本其实主要是靠弹性伸缩来降。在EMR里面可以去设置弹性伸缩策略和弹性伸缩规则。弹性伸缩规则结合YARN的调度能力可以看到什么时候该扩集群什么时候该缩集群。包括提前伸缩的时间都可以做设置真正的做到需要多少就用多少。把计算成本降到最低。这个跟好几年前做的Hadoop集群实战是完全不一样的。

以上主要介绍了如何构建云原生数据湖那么如此多的数据结构化、半结构化、非结构化的存储在你的数据库和数据仓库里这么多的数据应该如何来管先来看一看企业在管理数据的过程中又面临哪些问题

1、数据孤岛

数据不集中重复存储重复计算数据上云门槛高数据存储成本高

2、数据开发和运维成本高

自研数据平台难度大成本高开源工具扩展性稳定性难以保证数据质量运维成本难以匹配业务快速增长需求

3、数据共享应用不易

数仓中的数据对各类BI或应用不便数据存储分散分布在数仓数据湖数据库中数据难以共享和统一管理

4、大规模数据难以治理

随着数据规模的不断增大数据治理越发难以进行数据质量、监控、安全逐渐成为瓶颈

针对这些问题阿里云的DataWorks产品提供了一站式的数据开发治理的能力。

它构建于不同的计算和存储引擎之上包括阿里云自研的大数据服务MaxCompute 开源的大数据平台EMR/CDH 支持实时计算、图计算交互式分析。它构建在OSS 、HDFS、DLF之上湖仓一体的体系下为大家提供实时离线的数据集成、数据开发并且通过统一的调度任务和统一的元数据服务为大家提供了各种各样的数据治理的能力。包括资源优化、数据质量、数据地图等等数据安全一系列的资源治理方面的能力。最后通过一站式的数据的服务为企业达成了从你的数据平台到你的业务最后一公里的功能。

最后我们可以通过这样的open API把我们整个平台开放给客户也就是说您可以在看到DataWorks界面的情况下深度集成整个DataWorks的产品能力。

那这样一款产品它哪些核心能力呢可以概括为以下几点

数据集成数据开发数据治理数据服务

首先它通过数据集成实现了数据的入仓入湖。第二数据在进入了我们的系统之后数据开发它会通过支持多引擎的能力对这些数据进行精细化的处理和开发。第三数据治理在基于多引擎湖仓一体的体系上提供统统一的元数据服务使您对您的数据可以实现更易用和可用性。最后通过数据服务使这些数据可以一站式的直达到你的系统中。

我们首先来看一下数据集成我们这里一共提供了50多种不同类型数据之间的相互的同步比如说关系型数据库、大数据存储、消息队列以及非结构化的数据而且同时我们提供了离线和实时的入仓和入湖。

当我们的业务数据通过数据集成进入到我们的计算和存储引擎之后 DataWorks提供实时离线的开发通过支持多引擎的能力以及跨引擎之间的相互调度的能力根据各种引擎的性能你可以选择最优的最合适你的调度引擎把它们集合成一个整体对这些数据进行处理和开发。最后这些数据通过我们的数据服务提供给各种BI的分析的工具来展示数据报表和图像的分析。

上图也是一个简单的基于EMR的数据开发的调度的价格图。我们可以看到它可以支持EMR的不同类型的作业同时我们还支持一系列的逻辑业务节点通过支持这些逻辑业务节点我们可以支持循环、顺序、分支、跨地域、依赖等等并且提供这种按日的千万级的大规模的调度来符合企业这种复杂的逻辑业务结构。

这些数据经过了精密的数据开发的基础上随着企业业务的不断发展数字化转型的不同阶段那么大家对数据治理也呈现了不同层次的不同类型的需求我们在数据实时的正确产生的基础上我们对于数据整个的共享性、易用性好理解数据安全敏感数据识别等等以及你的成本优化都有了一些更高层次的需求。

那么DataWorks在各种各样的数据治理的需求方面又提供了哪些能力来可以帮助你的企业管理数据、治理数据呢

首先在时效性方面我们有一个全方位的运维和智能监控系统并且通过各式各样的比如说短信、邮件、钉钉、电话来以及移动运维对你进行及时的告警使您可以在任何地方的任何时间只要打开你的手机就可以对你的线上任务进行及时的处理。

以上可以看到这是一款DataWorks独创的并且已经获得了国家专利的智能基线监控技术。可以看到上图的K节点你只要关心你整个数据最后产出的节点而无需关注它的上游节点 DataWorks会非常智能的帮你搜索便利它的上游节点并且找出它的关键路径在关键路上的每一个节点设置相应的智能监控和告警这样就可以提前的发现问题及时干预。

我们这里提供30多种的内置模板并且提供自定义模板的设置可以让你对你的任何一张报表根据你的规则设置它的校验规则同时它跟刚才的数据开发流程其实是紧密结合的也就是说你在你的任意一个业务节点对你的任意的一张表可以设置相同的规则当你的任务会调度到这个节点的时候这个规则也同时被触发。你也可以根据设计的级别来设置各种各样的报警甚至去阻塞下游业务这样就可以防止脏数据的产生。

数据在已经以高质量、高效生成的基础上 DataWorks提供对湖仓一体不同引擎的元数据的统一的采集以及管理。基于这些统一采集管理的原数据就可以提供全域数据的检索数据详情的分析、数据的热度、数据的产出信息以及非常精确的血缘关系。基于这样血缘关系你可以对数据进行溯源以及进行各种各样的数据分析你的数据就会变得更好理解更好用更好查找。

我们除此以外还提供了一个全链路的数据安全的保护。数据安全领域我们提供了租户隔离Role Base的权限管理操作行为的日志并且跟开源的Kerberos/LDAP是打通的。除此以外对整个数据的开发链路其实也是有一个全链路的安全保障的从数据传输开始比如说我们可以对数据传输数据源的访问进行控制在数据存储的过程中可以进行存储加密数据的备份和恢复在数据处理的过程中可以进行更细力度安全管控随后的数据交换数据下载然后会进行相应的接口的健全以及进行数据脱敏的处理。