当前位置:主页 > 查看内容

DataWorks数据分析模块 | 《一站式大数据开发治理DataWorks使用

发布时间:2021-07-28 00:00| 位朋友查看

简介:作者 DataWorks产品经理 张华蕊 一、什么是数据分析 什么是数据分析 如下图所示 该图描述了数据、信息与情报的关系。我们从外界环境中采集数据 环境可能是软件环境 比如业务系统中的日志数据 也可能是硬件环境 比如采集传感器数据。采集来的原始数据的价值密……

作者 DataWorks产品经理 张华蕊


一、什么是数据分析

什么是数据分析 如下图所示 该图描述了数据、信息与情报的关系。我们从外界环境中采集数据 环境可能是软件环境 比如业务系统中的日志数据 也可能是硬件环境 比如采集传感器数据。采集来的原始数据的价值密度通常是比较低的 通过加工、处理、萃取后会得到更有价值的信息 对这个信息进一步的分析与生产 就得到了情报。


总的来说 数据分析是以挖掘有价值的信息并用结论支撑决策为目的 对数据进行探查、清洗、转换和建模的过程。数据分析能够使决策更科学 并帮助企业实现更有效的运营。

幻灯片4.PNG


数据分析包含以下几个步骤


首先是需求分析。先明确需求 比如业务的核心问题是什么 需要做什么决策 为了支撑这个决策需要拿到什么信息等。


第二步是数据采集。明确了需求后 可以进行数据采集 但这个环节可能会遇到几个问题。首先是期望的数据可能在技术层面是没有存储的 或是有存储但分散在数据仓库的不同位置 数据采集需要先解决这些问题。

幻灯片5.PNG

第三步是数据清洗。采集上来的数据往往是不完整、有重复、有错值、有空值的 数据清洗就是防止和纠正这些错误的过程。


第四步是探索分析。探索分析是借助分析工具对数据完成分析 这个过程中还可能包含机器学习算法的应用。


第五步可视化呈现。当数据分析之后 将会以可视化的方式呈现给需求方。


数据分析包括本地数据分析和在线数据分析。


本地数据分析最常见的是用Excel来做数据分析。但是由于数据分析师需要每周、每月或每个季度去重复分析 所以Excel做数据分析的第一个问题就是效率比较低。 而且用Excel做数据分析 也有性能差的问题 当所需要分析的数据量比较大的时候 性能就成了瓶颈 一个是因为Excel能够显示的数据行是有限的 另一个也受制于个人电脑的性能。用Excel做数据分析还有数据孤立的问题 针对单一数据表的分析价值是有限的 而企业更看重把各个业务系统数据拉通的分析结果。最后的问题就是安全风险问题。企业的数据放在本地某个员工的个人电脑上 是很难做到分享和下载过程中的权限控制。 ?

幻灯片6.PNG

在线数据分析就可以很好的解决上述问题。在线数据分析工具可以做到数据刷新 从而避免重复操作。例如在DataWorks的数据分析模块中有一张用户画像的分区表 如果9月份对这个分区表进行了透视操作 若10月还想做这个操作 只要把9月的配置直接复制到10月的分区上就可以高效实现数据更新。


另外 借助计算引擎强大的计算能力 在线数据分析还能对海量的数据进行高效的数据分析。同时可以从不同业务系统的数据库进行取数分析 打破数据之间的壁垒。DataWorks数据分析模块还支持将分析结果导出成一张MaxCompute表 或是直接将分析结果分享给其他人 这样数据就在不同系统和人之间流动起来了。


非常重要的是 使用在线数据分析模块 用户不需要把数据下载到本地就可以完成数据分析 并且做到分享。这个过程中权限可控 保证了数据的安全。


二、DataWorks数据分析

DataWorks用户经常会有以下这些疑问

问题一 我有一张表存在MaxCompute/EMR/RDS/…里 我想对查询结果做进一步的统计分析 我该怎么做 问题二 拿到一张别人的表 我怎么知道里面有没有脏数据 只能跑SQL吗 DataWorks能做透视分析吗 问题三 我想手动编辑一张维表 可我不会写SQL 我该怎么办


这些问题都可以通过DataWorks分析模块解决。


一 DataWorks数据分析模块

以下这张图展示了DataWorks各个模块之间是怎么配合完成数据分析需求的。

幻灯片9.PNG

首先做数据采集 通过在数据地图中搜索本次数据分析所需要的表 并通过表详情、数据预览、数据血缘查看理解数据。然后申请这个表或某个字段的查询权限 然后用户就可以去DataStudio做进一步加工 或是选择去数据分析模块 使用数据分析中“从数据源查询”的功能 从数据源直接取数并放入表格里 然后以表格的形式进行数据探查和透视分析。


总的来说 数据分析适用于数据快速洞察分析 在线编辑和数据可视化模块 数据分析模块的三大功能包含电子表格、维表、报表。


二 电子表格

电子表格是数据分析模块的核心功能 能够为用户提供进行取数、探索、分享的个人空间。它以电子表格为主体 可以支持常见的表格功能 让用户可以快速上手。


电子表格具有以下功能

支持从本地/数据源导入数据个人视角查询工作台数据探查数据透视分析结果可固化为MaxCompute表 也可以分享


三 电子表格-从数据源查询功能

从数据源查询功能支持丰富的数据源类型 当把某个数据源添加进来 可以查询字段结构或生成数据预览 通过双击或拖拽的方式可以快速生成查询语句 点击运行就能生成数据查询结果。它的编辑器是智能编辑器 可以智能地提供补全、高亮提示、智能纠错等功能 查询代码可以保存下来 并且运行历史也可以追溯。

幻灯片11.PNG


四 电子表格-数据探查功能

拿到数据后 可以借助数据探查功能来快速地洞察数据。这个功能对各个字段值的分布做统计 帮助用户快速掌握数据分布情况 并且支持概览模式和详细模式 并且支持数据筛选和多级下钻 能够帮助用户判断这些数据是否需要做数据清洗 明确清洗目的。

幻灯片12.PNG


五 电子表格-透视功能

透视功能是数据分析师常用的功能 电子表格支持本地透视和数据源透视两种 也就是说可以对电子表格里面的数据进行透视 也可以直接对数据源的全量数据进行透视。透视功能的维度支持自定义排序 数值类型可以分组 透视配置支持复制。

幻灯片13.PNG


六 电子表格-保存与分享

电子表格的保存与分享支持模板功能 意思是用户可以首先把电子表格保存成一个模板 再新建的时候就可以直接从这个保存的模板里新建。同时也可以把分析的结果固化成为一张MaxCompute表 直接生成建表语句 并且把数据插入到表里。当需要分享电子表格的时候 可以指定人或权限。


七 维表

维表是一个简单高效的表编辑工具。在日常工作中 运营同学常常需要去维护一张线上的MaxCompute表 一般情况他需要找研发同事新建一张MaxCompute生产表来进行维护 而每一次数据更新都需要找研发同事重复这个新建生产表的过程 不仅涉及人员多 而且效率低。


使用维表后 运营同学就可以直接用可视化方式自己建一张MaxCompute生产表 对字段进行命名和描述 点击确认就能生成一张线上的表。表生成后 可以把本地数据导入到表里 也可以直接在表上写数据。无论是写数据还是修改 都可以直接在维表中进行 这样就缩短了整个操作链路 提高工作效率。

幻灯片15.PNG


八 报表

报表是可视化呈现的工具 它提供多种报表组件 用户可以通过拖拽组件来完成报表的搭建。搭建完成后 可以把整个报表分享给其他人。

幻灯片16.PNG


数据分析介绍及实践请参考 https://developer.aliyun.com/learning/course/81/detail/1232


DataWorks官网 https://www.aliyun.com/product/bigdata/ide

大数据 AI体验馆 https://workbench.data.aliyun.com/experience.htm



本文转自网络,原文链接:https://developer.aliyun.com/article/785860
本站部分内容转载于网络,版权归原作者所有,转载之目的在于传播更多优秀技术内容,如有侵权请联系QQ/微信:153890879删除,谢谢!

推荐图文


随机推荐