数据来源:以某直聘平台为数据来源,以“大数据”为关键词,设置搜索条件为:杭州市规模在10000人以上的上市公司。由于平台限制仅可显示10页,每页30条招聘信息,除去个别无效记录,最终获取有效数据大概在280条招聘记录。当然,由于这里仅获取到了10页数据而并非海量数据,所以样本排序先后将对数据真实分布有一定影响。
分析目标:为了从多角度描述大数据岗位就业现状,拟从以下几个方面着手分析:
注:因样本数据随机性以及分析结果主观性,本文所属观点结论仅供参考!
Garbage in,garbage out!
选取某直聘平台,按照目标岗位设置搜索条件,可以直接访问10页数据,以此为目标,分别爬取各招聘记录的如下信息,且各字段信息直接从查询首页即可完整获取,无需分别访问各岗位详情页:
招聘信息搜索结果
这里直接爬取的字段相对较为整齐,多数字段均无需清洗处理,但为了后续分析需要,这里做以下4步处理:
处理后的数据样例如下:
画像的本质的在于降维描述!
分别从6个维度描述杭州人员规模在万人以上的上市公司招聘大数据相关岗位的招聘现状,其中薪资采用直方图刻画,区域和学历信息采用饼图描述,而岗位类型、招聘公司TOP5以及经验要求则采用横向直方图描述。结果如下所示:
从中可以得出以下基本结论:
大数据技术的核心是存储和计算!
为了了解大数据岗位从业技能要求,对岗位招聘的标签信息进行统计分析,得到全样本岗位标签TOP10如下,易见以下结论:大数据50%以上岗位都要求掌握数仓技能(数据存储);大数据的核心语言是Java(当然这与阿里主用Java有一定关系,而抓取样本中阿里的招聘记录占大多数);大数据相关的核心环节是ETL(抽取Extract、转换Transform、加载Load);大数据的核心技术栈仍然离不开Hadoop生态圈。
具体到几个头部公司,分别对其招聘岗位技能标签进行分析,结果如下:
对比分析各公司大数据岗位的TOP5技能标签,一定程度上可以管窥各企业的大数据技术栈信息,例如阿里巴巴和海康威视更注重数据分析与挖掘;浙江大华除了Java之外还较多的运用Python以及Spark;而无一例外的,Java都入选了各大公司的技术栈。
不以薪资衡量岗位价值就是不讲武德。
接下来分析打工人最为关心的因素:大数据岗位薪资情况。分别从公司、岗位类型、学历、工作经验以及技能标签等5个维度,分别描绘岗位薪酬分布情况,结果如下图所示。
透过图表,值得关注的几个细节是:
最后,以一张岗位福利词云结束本篇分析,主要是依托jieba分词和wordcloud库,对岗位福利描述绘制词云,得到如下结果:
基本都是互联网公司的常规福利,只能说除了股票期权真的是毫无吸引力……
3月24日,腾讯发布2020年Q4及全年财报,其中金融科技及企业服务第四季收入385亿...
作者 | 楚奕 来源 | 阿里技术公众号 这篇文章主要从技术视角介绍下跨平台WebCanv...
前言 微服务成了互联网架构的标配模式,对微服务之间的调用的流量治理和管控就尤...
1.某女生寝室门口贴着一个告示男生与饭盒不得入内,问何解?答曰两者都会搞大女...
背景 有时候我会碰到快速搭建测试服务的需求,比如像这样: 搭建一个 HTTP Servi...
创业与投资的本质,都是追寻一种能够穿越时空,抵达未来的高效方式。 德勤管理咨...
1.在报名的路上,我看见远处的学校,轰!的一声没了。希望如此。 2.男:我一直...
基于阿里巴巴的互联网架构、大数据技术,利用混合云架构打造全新的云化电子税 务...
1.百度是个大骗子,我抄了十几年的满分作文却从未得过满分。 2.学神在刷难题,...
本文转载自微信公众号「后端Q」,作者conan。转载本文请联系后端Q公众号。 概述 ...