美国前邮政部长,美国百货商店之父,约翰·华纳梅克(John Wanamaker)感叹到:「我在广告上的投资有一半是无用的,但是问题是我不知道是哪一半」。这种类似的感叹现在也经常发生在我们身边。
小 A 同学:在项目结束后,拿到了项目数据,看看自己的方案是否有带来数据上的增长,但面对一堆 Excel 表里一堆密密麻麻的数字,却不知从何下手……
小 B 同学:拿到了自己花大精力投入的项目数据,满怀期待地想来验证自己在项目中推动落地的好几个方案,还把项目过往数据也找来进行对比,一顿操作之后,看到整体数据上涨了,但因为影响因素特别多,具体是哪些方案产生了作用却无从知晓……
我们更常遇到的情况是不知道该如何去运用数据,让数据带来实际上的作用。本文将围绕实际的数据分析步骤,更细化地来讲讲具体是如何进行下去的。
数据分析主要分为 6 大步骤:构建 X 问题 – 提出假设 & 选择指标 – 数据采集与整理 – 数据分析 – 数据呈现 – 提出后续建议。下文将围绕这 6 步详细讲解每一步具体是如何做的。
从本质上来说,数据分析的最终目的在于解决问题。带着不同的出发点得到的数据结果可能会很不一样。所以,一切分析的开始必须要先识别要解决的重要问题是什么,以及这个问题为什么是最重要的。这两个问题将引导我们进入构建问题的过程,也就是明确数据分析的目的。
从哪入手
有预判类的分析,可以从已有的策略方案出发,寻找相应定量衡量方法。例如,尝试通过强化某促销 A 页面利益点等相关信息,从而促进用户购买,此案例则可以直接预设 X 问题为:「强化利益信息是否可以提升转化率」。
而无预判类(发现问题或机会)的分析,构建问题的起点往往是业务角度的商业目标,通过指标拆解、经验判断、横向对比、逻辑推导等方式来寻找有效的实现方式。例如,某电商促销页面 B 的核心目标是「提升 GMV(销售额)」,而 GMV=流量×转化率×客单价,就可以围绕提升转化率、客单价等指标出发去寻找解决方案。
判断是否重要
有预判类的问题,可以直接寻找指标评估验证结果可靠与否即可。
无预判类(发现问题或机会)的则可以通过评估该问题解决后,能够对最重要的商业目标带来的增益会有多大。例如,上述提升 GMV 的案例中,通过横向对比相同类页面的数据,发现此页面的转化率为 1.8%,明显低于同类页面 4.7% 的转化率,而流量和客单价与同类页面基本持平,故判断转化率极有可能是「提升 GMV(销售额)」的关键点,所以可定义「提升转化率的关键因素是什么」为此页面数据分析的重要问题。
定义X问题
可以根据不同的类型用一个问句来表达,如何/哪种/是否/原因是什么等。根据经验,细化之后的常见问题有以下几类,每类都可以用一个 X 问题来描述。
注意
问题的范围不可过于宽泛。往往要得出一个可靠且明确的结论,会需要收集数据并将数据应用到一个可检验的假设身上。如果问题太宽泛,数据收集就会变得非常困难。举个反例:「项目 D 的数据效果是否有变好」,这个例子中,「是否有变好」可能的方向有拉新效果是否有变好/销售是否有变好/跳失情况有变好等非常多种方向,每个方向都做探索将使你本次分析驶入无边大海迷失方向。但也不要过早地限制问题范围,刚开始时,可以开放性地思考问题,在脑中形成一些可供选择的方向。例如,「可能带来 D 项目的销售变好的可能情况是 1、2、3,通过初步数据来看 3 的可能性会更高一些」,然后就可以往 3 的方向深入分析下去了。
在上一步中,我们已经明确了 X 问题,即数据分析的目标。接下来,我们将围绕 X 问题,提出该问题的结论假设,并建立模型(选择衡量指标)来验证假设是否成立。
提出假设
针对有预设的问题,假设可以直接来源于问题,如方案 A 有助于提升转化率。对于没有实现预设的问题,则需要我们围绕问题进行穷举可能的假设,如页面 E 的跳失率急剧下降,可能原因有:
不同类型的假设,衡量方式会不一样,有些假设可能还需要定性调研配合来验证。在电商定量数据范围来看,可以参考以下思路:
数据源分为定量数据和定性数据,定性数据更偏用研方法,本文将注重讲定量数据的采集与整理。
数据采集
各平台的原始数据正在进入指数级爆炸的阶段,仅从电商平台来看,各类数据指标都非常的多而复杂。在采集之前的一个阶段,必不可少的是与数据产品或开发人员明确:数据指标的计算规则以及需要的数据指标列表(包括对应的时间段、平台端),防止等到要提数的时候结果发现没有数据或者数据计算方式不合理。
数据整理
数据整理的第一步是数据清洗,原始的数据表往往含有不少脏数据,如测试数据、异常值、空缺等等,直接用来计算分析可能会导致数据结论有偏差或无法计算。数据清洗就是要将原始数据表处理成可方便计算分析的干净整洁的数据表。主要包括:
数据加工计算
数据整理好之后,可以进行初始的数据加工了。因为原始数据可能并不符合我们的分析需求,比如,我们想看的是某模块的数据,但原始数据是拆成每一个点击位的数据,我们就需要把每个点击位的数据进行求和等操作,转化成模块数据。还有一些常见的情况是利用标准的行业计算公式,将某几个指标进行数理计算得到另一个指标,如订单 UV 价值=GMV/页面 UV、订单转化率=引入订单数/页面 UV、人均点击次数=点击 PV/点击 UV等,通过这一步的操作,我们将能初步看到要验证假设需要的一些基本指标的数据了。
4. 数据分析
数据整理完之后就到了真正的重头戏——数据分析了,也是含金量最高的一步。做数据分析有一个非常基础但又极其重要的思路,那就是对比,基本上 90% 以上的分析都离不开对比。沿着假设及衡量指标的思路,我们有了一个假设「X 策略可以提升 A 页面转化率」,且定义了此假设的衡量指标为「页面转化率」,当我们拿到页面转化率指标后,转化率需要达到多少才算好呢?是否是因为 X 策略带来的提升,还是可能是时间规律上的自然上涨?这时就可以通过对比来分析了。
各个角度的对比都能帮助你更清晰地理解目前指标的情况,然后就可以据此继续做下一步计划了。
本文转载自微信公众号「bugstack虫洞栈」,作者小傅哥 。转载本文请联系bugstack...
近几年,互联网行业蓬勃发展,在互联网浪潮的冲击下,互联网创业已成为一种比较...
想了解更多内容,请访问: 51CTO和华为官方战略合作共建的鸿蒙技术社区 https://...
在Python开发过程中,我们难免会遇到多重条件判断的情况的情况,此时除了用很多...
溢价 域名 的续费价格如何?通常来说,因为溢价域名的价值高于普通域名,所以溢...
前言 统计科学家使用交互式的统计工具(比如R)来回答数据中的问题,获得全景的认...
背景 我们知道 如果在Kubernetes中支持GPU设备调度 需要做如下的工作 节点上安装...
本文转载自公众号读芯术(ID:AI_Discovery)。 这一刻你正在应对什么挑战?这位前...
TIOBE 公布了 2021 年 3 月的编程语言排行榜。 本月 TIOBE 指数没有什么有趣的变...
基本介绍 给定 n 个权值作为 n 个叶子节点,构造一颗二叉树,若该树的带权路径长...