从最初的做数据管理工作,到逐渐负责指标体系梳理、预警机制搭建、BI系统建设、商业分析等工作,我越来越认同——“要做什么”是比“要怎么做”更加重要的问题。
一个数据分析问题,例如“分析一下竞品的情况”,让人感觉无从下手。通常是因为这个问题过于抽象,过于复杂,从而让我们不知道“要做什么”。这时候我们就需要对问题进行拆解,把抽象的问题变具象,把复杂的问题变简单。
这个拆解过程就要求一个数据分析师对数据分析的整体框架有所了解。换言之,Ta应该能够回答:
从工作事务的角度出发,我们可以将数据分析的工作流程划分为10个模块。该划分基于 “跨行业数据挖掘标准流程”( CRISP-DM),修改、扩充。目的在于涵盖商业分析的工作内容。
图1 - 数据分析的工作流程
完成这10个模块的工作,需要我们回答以下10类问题。
这10类问题围绕着“问题”、“数据”、“方案”三个核心关键词展开。
1. 问题
界定问题:需要解决的问题是什么?
制定方案:针对这个问题,(从数据出发)给出的解决方案是什么?
2. 数据
定义数据:根据预设的解决方案,需要的数据有哪些,是什么样形式的?
获取数据:所需的数据是可得的吗?从哪里可以获取?
理解数据:获取的数据蕴含了哪些信息?
处理数据:为了执行解决方案,我们还需要对数据进行哪些处理?
3. 方案
验证方案:根据现有的数据,预设的解决方案可行吗?最初的问题可解吗?
评估方案:内部评估,预设的方案多大程度上解决了最初的问题?需要如何改进?
实施方案:以什么方式,能准时、保质保量的交付解决方案?
评价效用:外部评价,实施后的解决方案效果如何?有多少价值?产生了什么影响?需要如何改进?
以上提出的数据分析工作流程的描述,还是挺抽象的。
以下,用三个不同复杂程度的实例来说明——如何利用数据分析工作流程的方法论来指导实际工作。
一、简单模式:“好好,这份业绩报表以后你来刷新维护。”
我的第一项数据分析工作,就是定期刷新一份已经设计好的业绩报表。这份工作非常棒,因为这项工作只涉及了工作流程中3个模块:⑥ 处理数据、⑨ 实施方案、⑩ 评价效用。
图2 - 业绩报表刷新涉及的工作流程
而至于其他模块:
所以更新业绩报表工作,只需要处理从系统中获取的数据;然后制作报表,并交付。对该项工作效用的评价方式为:及时性与准确性。
二、复杂模式:“好好,买了份咨询公司的数据,你分析一下市场情况。最好能够预测下季度的销量。”
假设你是麻雀水果贸易公司的数据分析师。现在老板从百灵鸟咨询公司买来了一份整个市场的销量数据。要求你根据这份数据,分析一下市场的情况,并对后续的销量做出预测。
这项工作的需求是相对明确的,这是一个描述现状和预测未来的需求。数据的来源,老板也花了数十万美金帮我们搞定了。所以我们不需要花太多的精力在① 界定问题 和 ④ 获取数据的模块。
图3 - 市场评估与销量预测的工作流程
我们粗略的看一下其他部分的模块应该要怎么做:
② 制定方案:
针对描述现状和预测未来的需求,我们分别制定方案给出响应。
对于描述现状的需求,我们给出解决方案A。从宏观到微观分为三个层次描述市场状况:行业、公司、产品。
对于预测未来的需求,我们用多元线性回归模型作为解决方案B。
所以对于这项工作,我们将有两个交付物:一份分析报告,以及一个预测模型。
③ 定义数据:为了能够落地方案A与方案B,我们需要:
宏观经济的数据;
市场上产品的销量数据,并且这些数据要能够区分品牌、区分销售渠道、区分价位等;
此外产品本身特性的数据;
以及咨询公司提供的一些二手资料、结论等。
⑤ 理解数据:我们要对咨询公司提供的数据做一些探索性的工作,获取更多的信息。
当我们获取的信息量更多之后,或许我们可以回到 ② 方案制定 的模块,做出更好的设计。
也可能我们发现,目前的数据,不足以支撑我们的分析需求。那么就要回到 ③ 获取数据 的模块,补充所需的数据。
⑥ 数据处理:将数据加工为我们所需要的形式,指标等。这个过程的实施,可以是使用python、Excel、ETL流程等任何工具、方式、手段。
⑦ 验证方案:将处理好的数据代入解决方案,得到结果。如果没能顺利得到结果,定位一下是②~⑥的哪个环节出了问题。
⑧ 评估方案:评估得到的结果是否解决了最初的两个需求。例如:
方案A的分析报告,是否给出了我司在市场中地位的结论。
方案B的预测模型,对过往季度的销售额的预测准确度如何。
如果还有可改进的部分,在保证交付的前提下,返回模块 ⑦ 验证方案 进行优化。
⑨ 实施方案:将两个交付物交付给老板,以及相关干系人(部门)。
⑩ 评价效用:收集他们的意见与反馈。分析报告是否给相关决策提供支撑,预测模型在下季度的准确度如何?
三、地狱模式:“找点数据,分析一下吧。”
这时候
需求很难界定
方案无从谈起
数据没有来源
验证依靠幻想
实施更不可能
(有一说一,这不就是科学家的工作吗?)
1.再不疯狂我们就老了,再不复习月考就完了。 2.某同学上课手机突然响了,让我...
1.将属性设置为 undefined 将属性设置为 undefined 不是最好的方法,因为属性本...
作者 不拔 每年各个部门都要进行规划 规划能让目标更聚焦 让我们清晰地知道今后...
香港虚拟主机 有什么用?香港 虚拟主机 其实和其他国内虚拟主机在使用上没有任何...
什么是数据挖掘?大家知道吗?与数据分析有什么联系吗?又或者说数据挖掘与数据分析...
本文由 T3 出行大数据平台负责人杨华和资深大数据平台开发工程师王祥虎介绍 Flin...
本文转载自微信公众号「贝塔学JAVA」,作者Silently9527。转载本文请联系贝塔学J...
1.我喝了那么多次优乐美奶茶,也没见周杰伦问我是他的谁 2.以后谁敢欺负我,就...
比特网3月3日消息,微软公司正式宣布,将继续加大对中国市场云服务的投入,通过...
自使用Java十五年后,我写第一本Kotlin书到现在已经快五年了。 我们的团队没有遵...