创造或产生的信息量或数据量每天都在迅速增加。医疗、零售、资讯科技、咨询,甚至政府机构等多个业界的数据量都在快速增长。这种增长的基本原因是,越来越多的人拥有比以往更多的工具来创建和共享信息。
在不久的过去,行业和组织在做出关键决策时,很大程度上依赖于猜测。而大数据和数据科学让他们能够浏览大量的信息,并在解决各自行业的问题时感到自信。
随着可用数据量的增加,管理信息或数据的问题变得更加困难。为了处理这些不断增长的数据并理解这些数据,需要越来越多的数据科学专家,以便组织能够对其业务做出明智的决策。
由于最近几年数据量的爆发式增长,全球数据科学专家的数量也在增加。所以,问题来了,如果数据科学专家的数量逐年增加,那么专家们在哪里存在,比例又是多少呢?
本文我们将尝试用 2011-2018年 Stack Overflow 的调查数据来寻找答案。多年来的调查数据可以在 https://insights.stackoverflow.com/survey ) 找到。
Stack Overflow 是一个每月都有大量的活跃用户的在线技术论坛。利用调查结果,我们可以发现一般软件工程师社区以及数据科学社区的见解。在这次分析中,我使用 “2011-2018年 Stack Overflow 开发者调查” 的数据来了解数据科学社区的增长情况。
一般来说,数据科学社区包括“数据库管理员”、“商业智能专家”、“数据仓库专家”、“机器学习专家”、“数据科学家”和“具有统计或数学背景的开发人员”。
本文分析了全球不同国家、不同行业和不同规模企业的数据科学社区增长的比例和趋势。
因此,我们可以先问自己以下几个问题:
以上问题的答案均以调查数据为依据。让我们逐一回答这些问题。
1. 从2011年到2018年,数据科学社区的增长趋势是什么?
从上面的可视化结果我们可以看出,近年来,数据科学社区在软件开发人员中发展迅速。它从2014年才开始显著增长,但2015年后开始呈指数级增长。这与最近几年的也是指数级的数据爆炸是同步发生的。
从那以后,数据爆炸越来越多。为了从每天产生的新数据中进行处理和分析,全球每年都在创造越来越多的数据科学工作。
2. 数据科学社区在哪些国家发展?
从上图我们可以观察得到数据科学专家数量排名前十的国家中数据科学社区的发展趋势。美国增长的趋势较高,其次是印度、德国、英国等。
美国数据科学社区的增长趋势呈指数级,处于全盛时期;其次是印度、德国和英国的数据科学社区,增长趋势也呈指数级,但尚未达到全盛时期。对于加拿大、巴西、俄罗斯、法国、澳大利亚和西班牙等其他国家来说,数据科学社区的人数有所增加,但与前四个国家相比增速缓慢。
从美国拥有硅谷时起,它就成为了大型软件和IT组织、银行、金融和保险公司、医疗服务提供商、教育机构、更好的基础设施的领军者和技术家园,并始终处于技术和 IT 先进程度的顶端,这些行业及其创建的日常服务仅在美国就创建了大量的数据。因此,与其他国家相比,美国需要更多的数据科学专家,这是具有指数增长合理性的。
印度一直是美国 IT 服务供应商国家中很重要的一部分,美国与印度具有相同份额的 IT 工作量。与美国一样,印度在上述各个领域也有自己的一套数据科学要求。因此,印度正在创造大量的数据科学机会,印度数据科学社区快速增长。
德国、英国以及其他排名前六的国家也是如此。大量的数据被创造出来,为了处理、保存和理解这些数据,每个国家对数据科学专家的需求也在快速增长,但是根据每个国家的需求和市场的不同,需求增长的速度也不同。
从上方的可视化图中,我们可以观察到排名前十的国家的数据科学社区的增长趋势,但现在是按某个国家历年的份额(或比例)来衡量的。因此,对于每个国家来说,2011年专家的比例较低,之后专家的比例上升,直到2018年,专家比例增加较为明显。
此外,比例的增长是指数级的,这与这些国家近年来以指数方式制造的数据是一致的。我们可以清楚地看到,每一个拥有数据科学专家的排名前十的国家都有相同的模式,即多年的指数增长,但他们的速度不同。
3.近年来各国数据科学社区的发展趋势是什么?
从上图中,我们可以得到以下结论:
2011年,使用数据科学的国家份额差异较大,这一比例差异逐年减小,到2018年,国家之间的份额差异变得更小。这意味着排名前十的国家中,每个国家都在使用数据科学。但根据需求和市场的不同,每个国家使用数据科学的份额也有所不同。
4. 数据科学社区在哪些行业增长,占多大份额?
综合2011-2018年各年份的数据,在2017年和2018年的调查中,没有关于个人所属行业的数据。因此,以下推论基于2011-2016年的调查数据。
从上面的可视化结果来看,几乎所有的行业都或多或少地使用了数据科学,主要应用于软件产品、金融和银行业、咨询、医疗和教育行业。此外,从可视化结果中我们可以看到,最多数据科学专家的行业对应的是 “Other”,这表示 Stack overflow 的调查中没有使用数据科学的行业。
“Other” 可以指各种行业,如:各种类别的研究、医药、制药、电子商务、建筑、运输、保险、旅游和酒店、公用事业、自然资源和能源等。
在现在这个轻科技时代,所有行业和组织都被数据淹没,数据正以指数级的方式被创造出来。因此,数据科学正以不同的比例被各行各业所使用,因为数据科学会产生更明智的决策。
使用数据科学的行业的上升趋势就像指数一样,它与跨行业的数据也在以指数的方式被创造密切相关。
行业内数据的创造和交换的增加意味着,行业需要更多的数据科学专家来保管和处理数据,以数据为参考,从而在不同的行业中为各自的业务做出更好、更明智的决策。
根据每个行业的需要、需求、地理位置和市场,数据科学专家的需求以不同的速度增长。因此,2014年之后,几乎所有行业都在使用数据科学。
5. 近年来,不同行业的数据科学界的发展趋势是什么?
从上面的图中,我们可以观察得到以下结论:
随着时间的推移,前十大行业的数据科学社区所占的份额也在不断上升和下降。多年间这些行业所占比例的差异越来越小。
2014年以后,各个行业在数据科学的使用上保持了一致性,各行业的数据科学专家份额约为3%至18%。
2011年使用数据科学的行业份额差异更大,而且这一份额差异逐年下降,2018年,行业份额差异变小,这意味着前十大行业中的每一个都在使用数据科学,但根据每个行业的地理位置、需求和市场的不同,所占份额也有所不同。
6. 在哪种类型的企业(小型、中型或大型)中,数据科学社区增长了? 比例是多少?
由于 Stack Overflow 在2014-2015年间没有与企业规模相关的数据,我们使用了 2011-2013年 和 2016-2018年 两个时间段来推测不同规模企业的数据科学专家的趋势。此外,对于这两个时间段,行业规模的类别也有所不同。
下图是2011-2013年的观察结果:
从以上对 2011-2013年使用数据科学的不同规模企业所占份额的可视化结果,我们可以得到较早期,即 2011-2013年间的以下结论:
这里小型企业是初创企业 (1-25人)和成熟小企业(25-100人)的组合,中型企业是指中等规模 (100-999人),大型企业是指财富500强 (1000+人),我们可以作如下陈述:
因此,在2011-2013年,如果我们将初创企业和成熟的小企业视为小型企业,2011-2013年数据科学专家在不同规模企业中所占的份额分布大致相同。
以下是2016-2018年的观察结果:
从以上对 2016-2018年 不同规模企业使用数据科学比例的可视化结果我们可以看出, 2016年到 2018年期间,小型企业(0-499名员工)拥有的数据科学专家远远超过中型企业(500-4999名员工)和大型企业(5000–10000+员工)。数据科学专家在小型企业中的比例是 65%,中型企业和大型企业中分别是 16.47% 和 18.22% 。
因此,大部分数据科学专家位于小型企业(1-499名员工)和超大型企业(10000+名员工),两者的份额之和为 79%,其余 21% 的份额位于其他企业(500-9999名员工)。因此,数据科学专家要么在小型企业工作,要么在超大型企业工作。
与 2011-2013年相比,2016-2018年期间,小型企业的数据科学专家份额有所上升,而中型和大型企业的数据科学专家份额有所下降。
下面可能是它发生的潜在原因:
自 2016-2018年以来,小型企业的数据科学专家份额逐年上升,而中型和大型企业的数据科学专家的比例有所下降。
7.近年来,不同规模的企业在数据科学领域的增长趋势是什么?
以下是2011-2013年的观察结果:
从上面的图形,我们可以得到以下结论:
大型企业拥有更多数据科学专家的一个潜在原因是,大型企业在投入研究和开发,并对未来几年将更有生产力、更高效和更广泛应用的技术抱有愿景。
由于大型企业已经知道每天的数据创造量呈指数级增长,他们雇佣了更多的数据科学专家,以便更好地处理和保存数据,并在各个业务中做出明智的决策。
另一方面,很少有初创企业是由一群预见到数据科学成为未来技术的潜力的志同道合的人创办,并在 2011年至 2013年期间开始聘用数据科学专家。中型企业也聘用了数据科学专家,但专家的数量出现了上下波动。
此外,在 2011-2013年期间,数据科学专家的数量要少得多。因此,大型企业对罕见的拥有数据科学技能的数据科学专家的负担能力更强。初创企业或许可能是由数据科学专家自己创办的,因此他们不得不聘请志同道合的数据专家加入。因此,大型企业和初创企业的数据科学专家数量有所增加。
此外,与其他规模企业相比,大型企业拥有庞大的数据,大型企业对数据科学专家的需求比其他规模企业更大,从而雇佣的数据科学专家比其他规模企业更多。而对于初创企业来说,由于他们的形成只是由于未来数据科学的巨大潜力,所以更多的数据科学专家被雇到初创企业中。
以下是2016-2018年的观察结果:
从上面的可视化图中,我们可以观察得到以下结论:
因此,2016-2018年间,小型企业(0-499名员工)和超大型企业(10000+名员工)的数据科学专家数量在不同规模企业的总和中占有最多比例。
总结
因此,综合所有问题的答案,根据 2011-2018年 Stack Overflow survey 的数据,我们可以得到:
随着数据以惊人的速度增长,明智的选择是注意这一点 —— 不可以忽视数据革命。
在数据高速增长的背景下,对数据科学专家的需求也在快速增长,但根据每个国家和行业的需求、地理位置和市场的不同,其增长速度也不同。
数据科学专家主要分布在美国,接着是印度、德国、英国、加拿大等其他国家。
几乎所有行业都在或多或少地使用数据科学,而其主要应用在软件产品、金融和银行业、咨询、医疗和教育等行业。
到2018年底,不同规模的企业中,小型企业(0-499名员工)和特大型企业(10000多名员工) 的数据科学专家所占份额不小。
虽然在某一时刻,数据爆炸可能会开始放缓,但事实是企业和消费者每天每秒都在不断地创造新的信息。企业需要创建、存储、管理和分析手边的大量数据,对于所有行业来说,这都提供了数据科学项目的业务需求。
因译者水平有限,如果文章中有问题或者错误,请大家多多指正,谢谢。
译者简介
李洁,北京师范大学香港浸会大学联合学院 数据科学系助教,香港科技大学电信学硕士。
中国最?好的一朵云飘进了华瑞银行。阿里云将进一步助力华瑞银行All in Cloud。 -...
9月17日,2020云栖大会上,阿里云正式发布工业大脑3.0。 阿里云智能资深产品专家...
定义 this是函数运行时自动生成的内部对象,即调用函数的那个对象。(不一定很准...
很长时间没有更新原创文章了,但是还一直在思考和沉淀当中,后面公众号会更频繁...
在TOP云(zuntop.com)科技租赁过服务器的站长都知道独立服务器在价格上比VPS主...
最近,DevOps的采用导致了企业计算的重大转变。除无服务器计算,动态配置和即付...
2020年对于云计算行业来说是突破性的一年,因为公共云供应商增加了收入,而疫情...
查看表结构,sbtest1有主键、k_1二级索引、i_c二级索引 CREATE TABLE `sbtest1` ...
本文转载自网络,原文链接:https://mp.weixin.qq.com/s/vlOUg46B5bcmToX-fjavJQ...
一、PostgreSQL行业位置 一 行业位置 首先我们看一看RDS PostgreSQL在整个行业当...