当前位置：主页 > 查看内容

DataWorks数据治理介绍及实践 | 《一站式大数据开发治理DataWork

发布时间：2021-07-28 00:00| 有位朋友查看

简介：作者 DataWorks产品经理唐晨一、数据治理的概念、需求层次和目标一对于数据治理概念的一些基本理解当我们在谈论数据治理时经常会跟数据管理这一概念一起讨论。DataWorks设计数据治理产品功能时参考的主要也是数据管理领域内的三大理论依据第一个是数……

作者 DataWorks产品经理唐晨

一、数据治理的概念、需求层次和目标一对于数据治理概念的一些基本理解

当我们在谈论数据治理时经常会跟数据管理这一概念一起讨论。DataWorks设计数据治理产品功能时参考的主要也是数据管理领域内的三大理论依据第一个是数据管理协会知识体系也就是大家熟知的DAMA、DMBOK2 第二个是DCMM数据管理能力成熟度评估第三个是信通院的数据资产管理实践白皮书。

幻灯片5.PNG

从左右这两张图对比可以看出 DMBOK和DCMM对于数据管理和数据治理的范围和定义是略微有区别的。DMBOK将数据管理划分为十大职能领域数据治理位于最中间的位置用于串联其十大职能领域。而DCMM将数据管理定成八大过程域数据治理是和数据质量、数据安全并列的过程域之一。显然业界不同的组织和群体对于数据管理和数据治理概念的理解会存在一些出入。

DAMS有这样的一个描述在数据管理过程中要保证一个组织已经将数据转换成有用的信息这项工作所需要的流程和工具就是数据治理的工作。这里强调两个概念第一数据治理是数据管理的一部分第二数据治理的核心是流程和与之配套的工具的保障。DataWorks也是参考了这个定义聚焦于保障与数据资产化配套的数据治理方面的需求来设计产品能力。当然产品能力建设也是一个逐步的过程 DataWorks的功能也在持续扩展中。

根据数据治理的需求结合在阿里巴巴内部数据治理的实践过程以及跟外部许多客户和同行的交流我们发现企业的数字化转型阶段不同数据治理方面的核心需求是存在差异的。抽象来看数据治理的需求可以分为五个层次第一层是时效性指的是数据产出的及时性要求第二层是质量数据的质量管控治理覆盖数据的完备性正确性准确性等第三层是数据的可用这里主要强调的是数据的共享使用易查找好理解或可复用第四层是数据安全方面的要求比如说数据权限的申请和审批流程的管控敏感数据的识别和保护以及合规性要求第五层是数据的生产、存储和使用的成本优化控制。

幻灯片7.PNG

这五个层次的需求越下面的需求相对来说越基础需要优先满足。但随着企业数字化转型过程的加深上层的需求就会逐步地体现出来。阿里内部也是这样的过程在十多年前最开始的阶段阿里优先关注的是数据任务的运行稳定数据能及时产出数据是正确的、可用的。当这些需求被很好地满足和保障之后现阶段阿里内部数据治理最关注的是金字塔顶端的需求也就是成本的考量。

当然这五个需求层次并不是必须逐层演进的。在一个阶段企业很大可能会同时有不同层次的需求只是相对而言它关注的需求重点会有所不同。

这五个需求层级实际上也就定义出了数据治理的一个核心目标就是企业数字化转型要最大程度地将数据资产化来挖掘出数据的价值。在这个过程中要满足产出的及时性质量可靠数据易找易用数据安全可控以及生产经济这五个方面的要求。 ?

在数据治理的实施策略上来说有自下而上和自上而下两种方式。这两种方式相结合的方式在阿里内部实践验证后更行之有效。顶层用来解决全局的数据规划和组织建设以及制度制定这些问题为治理提供上层的赋权而下层聚焦于核心业务流程的梳理、平台工具和运营体系的构建为数据治理落地提供支撑。

幻灯片8.PNG

通过自上而下和自下而上密切的结合随后循环的演进来进行数据治理的推动。而数据治理的需求分层也为数据治理给出了一个启示我们可以整体去规划数据治理的蓝图但是需要分阶段去实施。在特定阶段企业数据治理的诉求重点是有所区别的建议结合企业的实际情况关注重点层次的诉求逐步迭代演进。

二、阿里巴巴内部数据治理实践

有两个关键词 EB 级千万级任务天。这是阿里内部数据的现状总的数据存储已经到达了数EB这个级别每天离线数据处理的任务超过了千万而且这两个数字在以很大的增幅增加这背后是极大的存储和计算成本的开销。因此阿里巴巴现阶段数据治理的核心诉求已经演进到金字塔的顶端也就是关注成本的阶段通过数据治理

的工作阿里巴巴每年可以做到节省10个亿的成本这是一个非常了不起的成就。在阿里内部数据治理的工作能够有效的落地下来有四个方面的因素组织建设、制度保障、平台技术、运营落地。

一组织建设

阿里巴巴成立了全集团层面的数据治理工作组这个组织是直接挂靠在阿里巴巴内部的一级组织——阿里巴巴数字经济体数据专业委员会。工作组成员主要有独立的数据资产管理团队这个是独立于各个BU存在的还有各个BU的数据治理责任人以及数据平台的负责人。这个组织的核心工作有制定集团的规范确定治理的目标推进治理的落地以及保持最终的存储和计算的健康程度。数据治理工作组有一个很重要的权力对各个BU数据生产预算高低的直接影响权。每个BU能拿到的年度预算多少与上年度数据治理的目标达成程度是密切挂钩的。数据治理工作组在预算制定上的话语权也是保障治理工作能够推进的一个决定性因素。

二制度保障

在制度保障方面阿里巴巴制定了一个集团全局的数据资产治理规范主要是用来进行责权的明确细化每个主体的责任和权利。同时也制定数据治理的分项工作细则比如数据模型架构规范数据研发规范数据质量保障原则数据安全的管理指南。

三平台技术

在平台工具上面阿里巴巴的数据中台离线数据加工的部分都是基于MaxCompute和DataWorks来构建的。MaxCompute是阿里完全自研、全托管的EB级大数据存储和计算引擎它提供了海量数据的存储和计算服务。DataWorks可以说是MaxCompute的一个操作系统它基于MaxCompute的底座能力提供了数据集成数据开发数据地图数据质量数据安全和数据服务等全方位的产品服务。这两个平台的密切配合才能为数据治理落地提供强有力的平台支撑。

四运营落地

运营落地方面采取的措施有三种一是每周定期的资源消耗账单会发送给资源的使用者让他清楚地了解自己对于资源的使用情况二是定期的专项治理活动会针对性地集中来进行优化整治三是治理的红黑榜排行用红黑榜在全集团公布的方式来推动整个治理的实施。

这里的重点是一定要把治理的工作给量化出来用数据说话。红黑榜中一个核心参照指标是存储和计算的健康度评价也就是健康分。当健康分很低的时候会有对应的约束手段比如开发环境对于资源使用会受到限制、不能提交任务运行除非责任人完成相应的治理工作、提升健康分满足要求。

三、DataWorks数据治理平台能力

下图是Gartner2020年十大数据和分析趋势图有两个启示

幻灯片16.PNG

第一随着技术的引进新的趋势和新的需求会层出不穷但这些趋势之间又有着或多或少相互的关联性因此构建一个统一的数据平台来避免重复性的工作、提高扩展性变得十分必要。

第二要做增强型数据管理在数据平台中需要通过机器学习和人工智能技术的引入提供更强大更便捷的功能来解放平台的使用者让他们能够专注于其他重要的工作。

DataWorks产品设计的理念与这两个启示不谋而合。在数据治理的部分 DataWorks引入了较多的算法技术能够更好地辅助用户来使用平台。有很多人会问做数据治理的核心是不是去治理人把人管好了数据治理就落地了。但是在DataWorks看来治理的对象是数据和产出数据的任务这两个客观实体并不是去治理人。DataWorks追求的是基于数据来治理数据的思路、通过这个平台的产品能力来服务好平台使用者辅助推进数据治理的有效落地。基于这个理念 DataWorks提供了任务运维数据安全数据资产管理资源优化等一系列的产品功能模块。

接下来会围绕数据治理的几个需求层次结合对应的产品模块进行介绍。

一时效性 – 运维中心和智能监控

数据治理的第一个需求层次就是数据产出的时效性要求在这个方面推荐大家使用的核心产品模块是运维中心的智能监控功能即由DataWorks独创、荣获国家专利的基线监控技术也是阿里内部大量使用保障双十一大促在内的业务数据生产稳定性和时效性的核心功能之一。在运维中心中 DataWorks提供了离线和实时任务的丰富运维操作比如失败任务批量重跑历史任务的补数据运行以及运维诊断的功能可以极大地节约任务运维的时间成本。

另外一个引起任务产出延迟的常见原因是资源的争抢。对于高时效性要求的保障任务建议用户把这些调度任务分配到独享资源组上来。而如果是引擎层面的制约引起的任务延迟则可以增大MaxCompute计算资源的配额上限。

二质量 – 数据质量

DataWorks提供的数据质量模块能够良好地满足对数据产出的正确性、完整性的验证要求。在前面数据质量模块的介绍部分对于其功能已经有非常详细的介绍这里强调两个关键点第一 DataWorks支持配置动态阈值规则和规则的自动推荐这也是引入了AI和算法价值的特色功能第二质量的监控与任务的调度是强挂钩的可以设计一种强报警规则来阻塞任务的调度运行如果出现质量问题就让这个调度暂停下来然后发送报警给节点Owner来及时处置这样可以防止质量问题的大范围扩散。

三可用性 – 数据地图

在数据的可用性、复用性这一层次 DataWorks提供的是数据地图这一模块。下图展示了数据地图功能模块的功能。

幻灯片23.PNG

第一数据发现。数据地图里面目前支持了13种数据源的元数据采集和数据目录构建。

第二全局检索能力。可以让用户通过表、字段、描述等多个元素来快速检索表。

第三元数据详情。表的基础元模型、字段名称、字段类型等Schema详情、数据的产出情况、数据使用的记录以及数据使用的热度等这些信息在元数据详情里面都有展示。

第四数据血缘影响分析。数据血缘是数据地图提供的特色功能能够清晰的展现出这个表上下游之间的血缘关系包括跨不同数据源之间的血缘关系的展示。举个例子把RDS业务库里面的数据同步到MaxCompute来做数据处理加工加工完之后再回到业务库里去这个过程链路在数据地图中都会清晰地展现出来。这个功能可以很方便地让用户去了解数据处理的来龙去脉。在血缘基础上提供了影响分析功能比如如果需要去修订数据的口径基于这个能力也能很方便地找出这个改动可能影响的下游是哪些评估改动的影响面以及通知下游做相应的改造。

第五数据预览数据探查。数据地图里的数据预览能够对少量的样本数据进行抽样预览方便用户快速了解里面的数据具体是什么取值。数据探查的功能主要提供对数据做统计指标的分析便于用户洞察数据的分布情况比如数据的最大最小值空值率等。

第六数据类目。用户可以利用数据类目功能来对数据进行分门别类的管理。比如可以按数仓分层、按照组织的业务或者架构划分把表有序地管理起来。基于数据类目的划分在地图里可以非常方便地通过类目导航找到这个类目下挂载的表这样也能极大地提升找表的效率。

这一系列的数据查找和理解的功能最终的目标是提升数据的查找、使用效率让数据被更多地复用起来提升数据复用率来降低数据重复生产和存储的成本。

四数据安全 - 安全中心和数据保护伞

幻灯片24.PNG

在数据安全方面 DataWorks提供了安全中心和数据保护伞这两个功能模块。安全中心主要用来处理表权限的申请、审批和审计。数据保护伞提供了金融级别的敏感数据识别保护能力包括风险的识别和预警、数据风险的审计以及数据脱敏的功能。这些功能与其他功能模块有非常密切的联动比如敏感数据保护在数据开发的查询结果页面和数据地图的数据预览页面都可以设计应用上数据脱敏的能力防止敏感数据的泄露。

五成本 – 全局数据资产盘点和数据资源优化

在企业数据量的规模或是数据生产任务数量达到一定的程度之后对于成本的诉求就变得愈发强烈。因此 DataWorks推出了全局的数据资产盘点和数据资源优化的功能模块能够支持用户便捷地进行整个组织的资产盘点查看数据资产的总量趋势以及分布情况基于数据治理的思路通过对计算引擎和平台全方位的元数据的智能分析 DataWorks会给出同步任务、计算和存储三个维度的具体优化建议。

比如某个表设置了一个很长的生命周期但是并未使用或者是某个数据的SQL写的不太好存在全表暴力扫描的情况这些情况都会带来额外的资源浪费。DataWorks会把这些情况分析出来、形成治理项并给出相应的优化建议辅助责任人进行相应的优化。

DataWorks数据治理背后的幕后英雄也就是具有极致弹性、极致灵活和稳定、业界领先架构方案的MaxCompute引擎。MaxCompute在存储和计算上的技术创新、演进和优化改进是阿里内部能够达到每年10亿规模的成本优化的主要原因。在公共云上阿里巴巴内部业务打磨出来的技术红利也对外进行了输出比如单位数量的数据计算和存储成本是在逐年下降单个SQL运行的资源消耗也是在逐步降低通过技术进步来辅助大家进行成本节约。

MaxCompute新近在资源使用模式上也推出了一系列创新比如包年包月、按时段设置配额组以及按量付费和包年包月混用的模式都是出于帮大家节约成本的考虑。

对于深度使用了MaxCompute的用户对MaxCompute的稳定性应该是印象非常深刻的。运维成本实际上是一个极大的成本尤其离线处理任务是集中在夜间生产的如果生产平台不稳定的话夜间运维的工作是非常消耗人力的这也是一个非常大的隐性成本。MaxCompute引擎的稳定性对比开源自建的方案来说有非常大的优势。

MaxCompute和DataWorks的组合提供了极为完整、丰富的产品能力也是阿里内部自己在真正使用的方案经过了十多年的真实业务的检验。

四、产品最新进展

这一部分会介绍DataWorks近半年来在产品功能上的最新进展。首先 DataWorks推出了全新改版的数据综合治理在新版本中通过对数据生产数据使用和数据管理三个视角的抽象能够让用户更聚焦地关注和使用不同视角下所需要使用的产品功能。在这个新版本中 DataWorks提供了一系列新的产品能力下图是一个汇总的介绍。

幻灯片29.PNG 元数据管理方面 DataWorks数据地图中支持了对MaxCompute、E-MapReduce、MC-Hologres、ADB、RDS等云上13种最常用数据存储的元数据采集并基于这个基础构建出了异构数据血缘大图。在数据安全方面 DataWorks提供了最新的数据泄露溯源功能和基于区块链的数据流转安全产品。在运维监控方面新增了移动运维的能力即用户可以在手机上灵活处理告警能极大节省夜间运维的时间同时还新提供了电话告警的能力。

DataWorks也会发布稳定性治理 PDCA机制治理闭环这一产品能力同时作为阿里巴巴最佳实践的健康分这一评估机制开发团队也在计划对外输出。在开放性方面 DataWorks新近提供了全套的开放API、开放数据和开放消息支持用户基于DataWorks的元数据信息来进行自定义数据治理的工作。

在生态合作方面 DataWorks也特别注重与行业领域里的一些非常优秀的合作伙伴来一起进行合作共建输出联合解决方案。接下来重点介绍两个方案

第一个是DataWorks和Datablau合作提供的数据中台模型管理平台这样一个联合解决方案。第二个是DataWorks和御数坊DGOffice提供的一体化数据治理解决方案会以咨询加产品的模式为客户提供全站式的咨询服务面向数据全生命周期展开全方位的治理工作。DGOffice在很多行业里面沉淀了非常丰富的数据治理行业经验数据治理是有非常强的行业属性的因此在这里DGOffice为DataWorks提供了一个非常互补的组合能力。

五、总结

最后对数据治理内容做一个概要总结

一、数据治理是数据管理的一个核心组成部分是数据管理过程中的流程和工具的一个支撑。

二、企业在数字化转型的不同阶段对数据治理的需求层次是有区别的共有五个需求层次。

三、需要一个统一的开发和治理平台来减少重复工作提高扩展性。

四、数据治理治理的对象是数据和产出数据的任务 DataWorks的核心理念是基于数据来进行数据治理工作用工具和平台能力服务好使用者来推动数据治理的落地。

五、平台和引擎的技术演进尤其是MaxCompute这个底层引擎技术的演进是数据治理落地的一个催化剂底层引擎的优化工作对于成本优化是有着关键性的影响。

六、DataWorks提供了极好的开放性如果大家有自定义数据治理方面的需求可以通过DataWorks 的开放API、开放数据和开放消息来获取相应的数据进行自定义治理。

如果有咨询方面的诉求 DataWorks和御数坊的合作伙伴一起也能够提供联合的解决方案可以提供从咨询到落地的全方位服务。

数据质量介绍及实践请参考 https://developer.aliyun.com/learning/course/81/detail/1237

DataWorks官网 https://www.aliyun.com/product/bigdata/ide

大数据 AI体验馆 https://workbench.data.aliyun.com/experience.htm

本文转自网络，原文链接：https://developer.aliyun.com/article/785904
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：Java 仿 IntelliJ IDEA idea的 UI 框架 flatlaf——《我的Java打 下一篇：DataWorks迁移助手介绍及最佳实践 | 《一站式大数据开发治理Data

随机推荐

在DevOps中整合“安全即代码”文化

最近，DevOps的采用导致了企业计算的重大转变。除无服务器计算，动态配置和即付...
关于现代包管理器的深度思考-为什么现在

很长时间没有更新原创文章了，但是还一直在思考和沉淀当中，后面公众号会更频繁...
云计算市场在2020年取得突破性增长

2020年对于云计算行业来说是突破性的一年，因为公共云供应商增加了收入，而疫情...
阿里云发布工业大脑3.0，满足一站式开发

9月17日，2020云栖大会上，阿里云正式发布工业大脑3.0。阿里云智能资深产品专家...
VPS主机和租用服务器优势分析

在TOP云（zuntop.com）科技租赁过服务器的站长都知道独立服务器在价格上比VPS主...
JavaScript之深入理解this

定义 this是函数运行时自动生成的内部对象，即调用函数的那个对象。（不一定很准...
华瑞银行金融一朵云安全建设实践，智慧银

中国最?好的一朵云飘进了华瑞银行。阿里云将进一步助力华瑞银行All in Cloud。 -...
Nacos或者Config是怎么实现配置热刷新的

本文转载自网络，原文链接：https://mp.weixin.qq.com/s/vlOUg46B5bcmToX-fjavJQ...
MySQL Case-索引key对select count(*)的

查看表结构，sbtest1有主键、k_1二级索引、i_c二级索引 CREATE TABLE `sbtest1` ...
RDS PostgreSQL 安全最佳实践

一、PostgreSQL行业位置一行业位置首先我们看一看RDS PostgreSQL在整个行业当...

DataWorks数据治理介绍及实践 | 《一站式大数据开发治理DataWork

推荐图文

尽管获三千万融资，该域名也换得了吧！

服务器托管节省开支节省费用

P2P鼻祖收购四字母域名LCAM.com！梦工厂、百事均有

新零售行业优质解决方案分享【智能语音点餐机解决方

租用云服务器一年大概的费用

2021年值得关注的8种边缘计算趋势

随机推荐

在DevOps中整合“安全即代码”文化

关于现代包管理器的深度思考-为什么现在

云计算市场在2020年取得突破性增长

阿里云发布工业大脑3.0，满足一站式开发

VPS主机和租用服务器优势分析

JavaScript之深入理解this

华瑞银行金融一朵云安全建设实践，智慧银

Nacos或者Config是怎么实现配置热刷新的

MySQL Case-索引key对select count(*)的

RDS PostgreSQL 安全最佳实践

关于我们