前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >做数据分析,需要懂多少统计学

做数据分析,需要懂多少统计学

原创
作者头像
码工小熊
修改2021-11-03 09:56:36
1.1K0
修改2021-11-03 09:56:36
举报

大家好,我是爱学习的小xiong熊妹。

很多小伙伴会问:做数据分析,需要懂多少统计学知识?今天简单跟大家分享一下。

一、统计学是个啥

统计学是个历史悠久的学科,有着300年以上历史。随着近代科学的发展,人们不再满足于“普天之下”“众所周知”这一类含糊的描述,希望用精确的数据来描述事物,因此诞生了描述性统计(descriptive statistics)。

这是统计学最早,也是最普遍的应用。我们经常说的平均数、中位数、众数等等概念,都是描述性统计的概念。

另一方面,人们发现:获得数据太难了!尤其在300年前,遍地文盲,口述手抄的时代,想获取数据难如登天。怎么办呢?人们开始思考:能否从总体中,抽一些样本,通过样本情况推断总体情况。这样就一定程度上解决了数据获取难的问题,是所谓的推断性统计(inferential statistics)。

上过《统计学》课的小伙伴,都对假设检验、统计量、分布函数等概念记忆深刻。这些东西很难搞懂,实际工作中似乎又很少用到。因为这些东西,都是推断性统计的概念。

二、统计学有哪些内容

随便百度一本统计学术的目录,可以看到,有以下章节(如下图)

图片
图片

其实大部分统计学书都是这么布局的,大同小异。一般四大部分

  • 第一部分:描述性统计。
  • 第二部分:概率与抽样。
  • 第三部分:假设检验。
  • 第四部分:统计模型。(如下图)
图片
图片

那么,到底需要掌握多少呢?

三、初级数据分析师,要掌握哪些

第一部分描述性统计是人人必会的。因为这是做数据分析的最基础知识和基本概念,不管做什么工作都要用到。而且这一部分概念简单,很容易掌握。所以入门的新人,最好人手必备

包括

  • 基础变量概念(连续、定序、分类)
  • 描述集中程度(均值、中位数、众数)
  • 描述离散程度(平均差、方差、标准差)
  • 描述数据分布形态(箱型图)
  • 数据图形展示(8种基础图形)

很多基础的数据分析方法,比如分层分析、矩阵分析等,其实就是描述性统计+数据交叉表。所以如果真的是小白入行,统计学数一般看到前四章就能打住了。不用自己难为自己。

当掌握基础知识,要参加面试的时候,可以适当补充第二部分:概率与抽样的知识。并非因为这一部分用处多,而是很多企业喜欢在面试时候问这些问题(就是一个字:卷)。学这一部分,最好的办法是对着章节后边的习题做。做对题,通过面试是第一目标。

四、中级数据分析师,要掌握哪些

第三部分知识,是中级以后数据分析师要掌握的。因为这一部分,讲的是用抽样方法做统计推断。实际工作中,大部分场景不需要做抽样。比如统计销售、运营、产品情况,都是全量统计,很少做抽样。只有特定场景需要

最典型的就是质量检测。比如检查产品的使用寿命、耐用程度、物理强度等指标,就一定得对产品做破坏性检测。这就意味着不可能100%检测,一定得抽样。类似的场景,在供应链上还有很多,比如检测生产线生产质量,比如检测药品服用效果等等。

之所以在供应链应用多,还有一个深层次原因,就是:供应链的检测,检测的是一个有固定物理/化学属性的事物。这样有可能通过小样本抽样,推断出总体的物理/化学属性。这样使得抽样检测的结果很稳定,有指导意义。

在营销端也有类似应用,一般是用在未上线的产品/概念/价格。比如传统企业流行的包装测试/口味测试/价格弹性测试,或者互联网企业流行的ABtest。因为这些测试,都是挑选一小批用户参与测试,因此涉及小样本推断总体情况的判断,就得用到概率和假设检验。

但要注意的是:抽样方法,往往和具体业务场景捆绑紧密。都是抽样,质检端可能就是按产品编号抽;调研则得先拦截受访者,再甄别特征;互联网产品的ABtest,则是先对流量做分桶。因此孤零零看统计学知识,无法满足实际工作需要,得结合具体业务场景学习才行。

五、高级数据分析师,要掌握哪些

第四部分回归/预测模型,建议缓看。因为这一部分涉及知识量大,且平时工作中不怎么用得上,并且现在机器学习流行,其计算模型思路和统计学不太一样。所以这一部分,建议在自己已经有积累情况下再看。

另一个问题是:统计模型经常被错用、乱用。特别是相关分析和回归分析,因为这两个非常简单,用excel就能做,所以经常被一知半解的小白拿出来乱用。结果,要么是业务表示看不懂,不认可;要么是做的错误百出,无法自圆其说。所以新人真的慎用。

如果新人真的想看这一块,建议只看时间序列预测。因为时间序列预测使用范围非常广,特别适合领导扔几个数据过来,让我们“做个预测看看”的场景。至于其他方法,建议找个现成的工具(比如SPSS),把数据怼进去,然后对着输出参数做解读。

以上就是我个人在工作中运用心得,供大家参考。估计有小伙伴会表示:“小熊妹,你这完全不够呀!最近招聘越来越内卷了,问的统计学知识越来越多,咋办!”从我的面试经历看,一般这些卷王们,喜欢卷三个话题:

  • ABtest(涉及假设检验、抽样)
  • 因果推断(涉及统计推断、控制变量)
  • 预测模型(时间序列/因果关系模型)

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、统计学是个啥
  • 二、统计学有哪些内容
  • 三、初级数据分析师,要掌握哪些
  • 四、中级数据分析师,要掌握哪些
  • 五、高级数据分析师,要掌握哪些
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
http://www.vxiaotou.com