前戏
粽子节了嘛,突然想吃粽子了,咋办,买粽子呗!现在情景转换一下,假设你是某饮食网的数据分析师,现在某粽子界大亨想拿钱砸你老板(打广告)。
老板:“宝器过来一下“
宝器:“好的老板”
老板:“有个粽子界土豪要砸我们”
宝器:“谁敢砸你?老板等着我叫人”
老板:“我问的是咱如何收费!”
宝器:“好嘞老板,下周给你出个报价报告”
(背景吹比结束)
作为数据分析师你可能想到的是CPC、CPS这一类的关键字,但到底是用CPC还是其他方式计费,如何计费,给哪条渠道线推广?什么样的用户可能适合粽子大亨?这些问题都需要你对公司网站流量数据从采集到到分析有全面深刻的理解。
目录概览
以下内容为个人现阶段业务分析与学习理解,内容将从数据采集到用户分析(绩效指标KPI)这条线路展开。主要内容目录如下:
流量数据分析
数据采集
何为“埋点“?
说白了就是收集数据,首先你想到可能可能是爬虫爬取,但你要搞清楚,现在是在公司的产品线,难道你能通过爬虫爬到“宝器点开了××搜素框”这样的行为事件吗?很明显这是不现实的。
那类似于这样的用户行为事件怎样采集数据呢?答案是通过“埋点”,所谓埋点,指的就是针对用户行为事件捕获、处理和发送的相关技术及实施过程。
举个栗子:如果京东内部运营人员想看一下如下图“粽情端午节”这个活动的效果,研发人员可以通过在下图红色箭头所指地方“埋点”,当用户点击这一栏的时候,后台将会触发并上报这样一条用户点击行为数据。
埋点作用?
流量数据采集底层表与字段
埋点时为了收集数据,但不是所有的数据都需要采集上来。首先得知道业务需求是什么,比如现在BOSS想看一下近7天的的DAU走势,这时候分析师就要思考怎么计算DAU,之后再和产品人员讨论如何埋点可以得到某个“字段”用于计算DAU(可以在用户启动APP的时候埋点上报一条日志标识)。
在实际的操作中,有以下的几个方面的数据可以被采集:
用户的系统属性特征
用户的访问特征
用户来源特征
产品特征
所以综上可能流量数据采集底层表如下(这里只做简单的列举,更多请自行查阅思考):
数据处理(ETL)
目的:根据后续的指标统计需求,过滤分离出各种不同主题(不同栏目path)的基础数据(创建不同的中间表表示)。
方法:一般直接通过HQL按维度和指标提取数据(可能从原始底层采集表提取比较困难,原始表也需要经过ETL将业务系统的数据经过抽取、清洗转换之后加载到数据仓库)。之后可能根据业务需求将基础性指标脚本固化,推送到内部BI平台制作报表展示。
举个栗子,计算一下近7日UV、登录用户及访问IP等指标:
- SELECT dt,
- COUNT(DISTINCT deviceid) AS uv ,
- COUNT(DISTINCT CASE WHEN length(trim(user_id)) > 0 THEN user_id else NULL end) AS login_users ,
- COUNT(DISTINCT ip) AS ip_num ,
- COUNT(session_id) AS session_num
- FROM dwd_caiji_table
- WHERE dt between sysdate(-7) and sysdate()
- GROUP BY dt
问题:
可能很多朋友想问前面提到的通过HQL来提取数据而不是用SQL,实际上HIVE-SQL设计的目的就是想让会SQL而不会MapReduce编程的人也能使用Hadoop进行数据处理(毕竟公司实际的数据量都是TB、PB甚至更大)。
目前流行的大数据相关的计算框架能处理大量的数据和计算,基本是依赖于分布式计算框架(比如MapReduce),而分布式计算,是一个集群共同承担计算任务,理想状态下是每个计算节点应当承担相近数据量的计算任务,但实际情况可能因为数据分配的严重不均衡导致数据倾斜。
所以在做ETL的时候需要考虑数据倾斜的问题,相关内容过多请自行查阅。
指标统计与用户分析
说明:限于篇幅,将目录3、4串在一起。
产品数据化是有非常有好处的,优点:
而数据化的前提是需要一些指标来衡量,这里宝器将指标分成网站的流量指标和用户行为指标,意思是说一部分几乎是通用性分析指标,一部分会根据不同的业务需求场景而设定。
针对每个指标的具体含义如果有不理解的还需要各位自行查阅。需要了解的是每个指标的定义 、作用。
举个栗子,DAU:
定义:Daily Active User(日活跃用户)
作用:可以用户衡量产品(如京东app)的活跃度,可用于了解用户增长和减少趋势。
现在重点讲一下宝器对用户分析(绩效指标KPI)的一些看法,首先个人是将用户分析分成两类,一类是基础性分析,一类是模型策略分析。说的简单点就是想通过基础性的指标分析,调整运营策略,并根据不同的商业需求,搭建用户分析模型体系。
1、基础性分析
基础性分析指标分成两种,一种是针对新用户,一种是针对老用户,而新用户对应着拉新和转化。而针对老用户可分成活跃、留存、跳出、回购。举个栗子:
拉新(渠道):
京东往往具备 APP、移动端、微信端、PC端渠道,其中根据不同的业务,流量偏重有所不同,随着手机移动设备的越来越智能化和大屏化,一般情况下,电商节618数据表明,非PC端消费的用户最多。现在的商业机构更加注重非PC端(微信、APP、移动端)的营销,所以了解用户使用的设备和渠道能够使得运营和利润最大化。
转化:
指用户进行了相应目标行动的访问次数与总访问次数的比率。相应的行动可以是用户登录、用户注册、用户订阅、用户下载、用户购买等一系列用户行为,因此网站转化率是一个广义的概念。简而言之,就是当访客访问网站的时候,把访客转化成网站常驻用户,也可以理解为访客到用户的转换。
针对老用户的活跃、留存、跳出、回购同理可直接搜索相关关键字自行阅读。
2、模型策略分析
我相信授人以鱼不如授人以渔,这是非常重要的一部分内容,也不可能就在一篇推文中讲清楚。这里将这部分内容对应的一些参考学习链接放上,更多理解还需自己领悟:
用户行为事件模型:
http://www.woshipm.com/data-analysis/686576.html
用户行为路径分析:
http://www.woshipm.com/data-analysis/704261.html
用户体验分析:
http://www.woshipm.com/discuss/53005.html。
https://www.jianshu.com/p/f10f706d3ddd?from=groupmessage
用户画像分析:
用户画像。
用户价值评分与精准营销:
https://wenku.baidu.com/view/7e156f087275a417866fb84ae45c3b3567ecdd18.html
漏斗模型分析:
http://www.woshipm.com/data-analysis/697156.html
流量货币化:
https://baike.baidu.com/item/%E6%B5%81%E9%87%8F%E8%B4%A7%E5%B8%81%E5%8C%96/17219976
本文参考:
结语:
勿忘初心,做自己,还年轻,在路上,Over!
中国最?好的一朵云飘进了华瑞银行。阿里云将进一步助力华瑞银行All in Cloud。 -...
一、PostgreSQL行业位置 一 行业位置 首先我们看一看RDS PostgreSQL在整个行业当...
查看表结构,sbtest1有主键、k_1二级索引、i_c二级索引 CREATE TABLE `sbtest1` ...
2020年对于云计算行业来说是突破性的一年,因为公共云供应商增加了收入,而疫情...
定义 this是函数运行时自动生成的内部对象,即调用函数的那个对象。(不一定很准...
很长时间没有更新原创文章了,但是还一直在思考和沉淀当中,后面公众号会更频繁...
最近,DevOps的采用导致了企业计算的重大转变。除无服务器计算,动态配置和即付...
9月17日,2020云栖大会上,阿里云正式发布工业大脑3.0。 阿里云智能资深产品专家...
在TOP云(zuntop.com)科技租赁过服务器的站长都知道独立服务器在价格上比VPS主...
本文转载自网络,原文链接:https://mp.weixin.qq.com/s/vlOUg46B5bcmToX-fjavJQ...